RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(1/3)

１．RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(1/3)まとめ

・ユーザーニーズに最適に対応するためにユーザーと対話を行う推薦システム、CIRが有望視されている
・しかし、CIRはユーザと対話するアルゴリズムとモデルの開発が困難な事から制限されている
・この問題の解決には強化学習が適しているが推薦システム用の汎用シミュレーション環境は存在しない

２．RecSimとは？

以下、ai.googleblog.comより「RecSim: A Configurable Simulation Platform for Recommender Systems」の意訳です。元記事は2019年11月19日、Martin MladenovさんとChih-wei Hsuさんによる投稿です。

訳注：推薦システムとは少し馴染みのない言葉かもしれませんが、ECサイトなどよく見かける「この商品を買った人は、他のこんな商品も買っています」や、最近では商品説明ページなどで見かける「AIがお客様に最適な商品を選ぶお手伝いします」と出て来るチャットシステムなどですね。

あういうのって、基本的には対話していて的外れな事を言い出されてイライラする事が多いと思うのですが、ここに強化学習を持ち込んで自律的に学習させる事が出来ないか？そのためは、まずは強化学習を鍛えるためにシミュレーション出来るプラットフォームが必要になってきますよね、ってお話が今回のRecSimの概念です。Googleは強化学習用のシミュレーションを過去にも出していて、サッカーの強化学習シミュレーション環境などは反響が結構あったようです。

機械学習や音声認識、及び言語理解に関する技術の大幅な進歩により、推薦システムとユーザーの関わり方が急速に変化しています。

その結果、コラボレーティブインタラクティブレコメンダー(CIR:Collaborative Interactive Recommenders、協同対話推薦システム)が、オンラインサービスが次に目指すべき、次世代の推薦システムとして具体的に浮上しています。CIRは、ユーザーのニーズに最適に対応するためにユーザーと意図的な対話を行う推薦システムです。

次世代の推薦システムと目されているにもかかわらず、CIRの製品への採用は、アルゴリズムとモデルの開発が困難な事から制限されてきました。ユーザとの対話は逐次的に行われます。つまり、順を追って一歩一歩進むようにユーザと対話をしていく能力を向上させる必要があるのですが、これが困難なのです。

強化学習(RL)は、逐次決定問題に対処するための事実上の標準的な機械学習アプローチです。推薦システムの逐次相互作用のモデリングと最適化のために強化学習を使うのは自然な考えです。

ただし、強化学習をCIRで使用するアイディアについては研究と実践の両方で、未だ調査も活用もされていません。主要な障害の1つは、推薦システム用の汎用シミュレーションプラットフォームがないことです。
シミュレーションは、ロボティクスなどの実世界のアプリケーションで強化学習アルゴリズムを開発および評価するための主要な手段の1つです。

これに対処するために、推薦システム(特にCIR用)の強化学習アルゴリズムの研究を促進するシミュレーション環境を作成するための構成変更可能なプラットフォームであるRecSim(Githubから入手可能)を開発しました。

RecSimを使用すると、研究に携わる人も実務に携わる人も、推薦設定を合成して既存の強化学習手法の限界をテストできます。

RecSimの目的は、実際の推薦システムで見られるユーザー行動の特定の側面を反映するシミュレーションをサポートし、推薦モデルとアルゴリズム、特に逐次的なユーザーとの対話用に設計された強化学習システムを開発し、評価し、比較する、制御可能なシミュレーション環境として機能することです。

オープンソースプラットフォームとして、RecSimは
(i)強化学習システムと推薦システムが交わり合うポイントでの研究を促進します。

(ii)再現性とモデルの共有を奨励します。

(iii)製品展開時に発生する潜在的なコスト(時間、ユーザーへの影響など)をあらかじめ負担します。これにより、強化学習を適用して、シミュレーションでモデルとアルゴリズムを迅速にテストおよび改良することに関心がある推奨システムの開発者を支援します。

(iv)ユーザーデータやデリケートな業界戦略などの詳細を明らかにすることなく、ユーザー行動に「現実に則した」定型化されたモデルをリリースすることにより、産学連携用のリソースとして機能します。