RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(3/3)

１．RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(3/3)まとめ

・RecSimは強化学習/推奨アルゴリズムを調査するために十分な機能を持つが拡張機能も存在
・「sim-to-real」ギャップの部分的解決、シミュレーションと推論アルゴリズムのスケールアップ
・混合モード対話モデルへの拡張。(例：言語ベースの対話、嗜好の引き出し、説明など)

２．RecSimの実例

以下、ai.googleblog.comより「RecSim: A Configurable Simulation Platform for Recommender Systems」の意訳です。元記事は2019年11月19日、Martin MladenovさんとChih-wei Hsuさんによる投稿です。

RecSimを使ったアプリケーション
RecSimを使用して、推薦システムで強化学習を使用する際に発生するいくつかの重要な研究問題を調査しました。

例えば、スレートによる推奨は強化学習で問題を引き起こす可能性があります。アクションのパラメーター空間はスレートのサイズとともに指数関数的に増加するため、探索、一般化、およびアクションの最適化に課題が生じるのです。

RecSimを使用して、ユーザー選択行動に関する単純で広く適用可能な仮定を活用して、推奨スレート全体のQ値を適切に計算する新しい分解手法、SlateQを開発しました。特に、RecSimを、アルゴリズムのパフォーマンスやユーザーの行動に関するさまざまな仮定に対する堅牢性など、多くの実験的仮説をテストするために使用しました。

招来の研究
RecSimは、研究者や実務家に、定型化された環境で強化学習/推奨アルゴリズムによって行われた仮定を調査するための十分な機会を提供しますが、いくつかの重要な拡張機能を開発しています。

(i)様式化されたユーザーモデルに使用ログを適合させ、「sim-to-real」ギャップを部分的に解決する方法。

(ii)TensorFlowの確率的APIを使用してモデルの仕様と学習を容易にする自然なAPIの開発。加えて、アクセラレータと分散実行により、シミュレーションと推論アルゴリズムのスケールアップを容易にします。

(iii)現在のCIRの特徴となるフルファクター、混合モード対話モデル(mixed-mode interaction models)への拡張。(例：言語ベースの対話、嗜好の引き出し、説明など)

RecSimが、推薦システムと強化学習研究の間のギャップを埋める貴重なリソースとして役立つことを期待しています。上記の使用例は、この一例です。また、適切な抽象化レベルで、有用なモデルとアルゴリズムの開発を推進できる、ある程度は現実世界のユーザー行動を反映している定型化されたモデルを共有することにより、学術と産業界のコラボレーションをサポートするプラットフォームとなる事を探求する予定です。

RecSimフレームワークの詳細はarxiv.org掲載のホワイトペーパー「RecSim: A Configurable Simulation Platform for Recommender Systems」に記載されていますが、コードとcolabs、チュートリアルはgithubから入手できます。

謝辞
RecSimの協力者と早期導入者、RecSimteamの他のメンバー、Eugene Ie, Vihan Jain, Sanmit Narvekar, Jing Wang, Rui Wu and Craig Boutilier、に感謝します。