オフライン強化学習における未解決の課題への取り組み(3/3)

１．オフライン強化学習における未解決の課題への取り組み(3/3)まとめ

・オフラインRLを改善するためには履歴データにない行動を学習する必要がある
・既存手法は履歴データにない行動を過度に過大評価してしまう問題があった
・基本的に悲観的な予測をする保守的Qラーニングは過大評価を制限する手法

２．CQLとは？

以下、ai.googleblog.comより「Tackling Open Challenges in Offline Reinforcement Learning」の意訳です。元記事の投稿は2020年8月20日、George TuckerさんとSergey Levineさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Jilbert Ebrahimi on Unsplash

オフラインRLのアルゴリズムの改善
ベンチマークタスクを開発した結果、既存の手法ではより困難なタスクを解決できないことがわかりました。中心的な課題は、分布シフト(distributional shift)から生じます。つまり、履歴データを超えた改善をするためには、オフラインRLアルゴリズムは、履歴データセット内で行われた行動とは異なる行動を学習する必要があります。

ただし、これは、望ましく見えた行動がどのような結果になるか履歴データから推定できない場合に問題を引き起こす可能性があります。例えば、エージェントが迷路を解いている時、特定の方向転換を行ったエージェントが履歴データ内にいないのであれば、その方向転換がゴールに繋がるかどうかはどうやれば知る事が出来るでしょうか？

この分布シフトの問題を処理しないと、オフラインRLメソッドは未知の行動を既知の行動から誤って推測し、履歴内に存在しない行動に対して楽観的に過大評価をしてしまう可能性があります。

オンラインRLと比較してみましょう。
好奇心と驚きに基づいてモデル化された報酬も、オンラインエージェントを楽観的にさせ、エージェントは様々な潜在的な報酬を得ようと試行錯誤します。しかし、エージェントは対話的に環境からフィードバックを受け取る事が出来るため、アクションがやりがいのないものであることが判明した場合は、楽観的な試行錯誤を簡単に回避できます。

この問題を解決するために、保守的Qラーニング(CQL:Conservative Q-Learning)を開発しました。CQLは、重要度の重みを使用せず、個別に動作モデルを構築する事を回避しながら、過大評価を防ぐように設計されたオフラインRLアルゴリズムです。

標準的なQラーニング(およびactor-critic)手法は過去の推定を土台に実行(bootstrap)されますが、CQLは基本的に悲観的なアルゴリズムであるという点でユニークです。つまり、特定の行動について良い結果が確認できなかった場合、その行動は良いものではない可能性が高いと想定します。

CQLの中心的な考え方は、期待されるリターンの「近似(approximate )」を学ぶのではなく、ポリシーの予想リターン(Q関数と呼ばれます)の「下限(lower bound)」を学習することです。この保守的なQ関数に基づいてポリシーを最適化すると、その値が推定下限値以上にはならず、過大評価によるエラーを防ぐことができます。

私達は、CQLがより困難なD4RLタスクの多くで最先端の結果を達成出来る事を発見しました。CQLは、AntMaze、Kitchenタスク、および8のうち6つのAdroitタスクで他のアプローチよりも優れていました。特に、蟻型(Ant)ロボットを使って迷路を探索するAntMazeタスクでは、CQLが重要なポリシーを学習できる唯一のアルゴリズムであることがよくあります。

CQLは、Atariゲームなどの他のタスクでもうまく機能します。 Agarwal等によるAtariタスクでは、データが制限(1%のデータ)されている場合、CQLは従来の手法よりも優れています。

更に、CQLは、追加のニューラルネットワークをトレーニングする事なく、既存のアルゴリズム(QR-DQNやSACなど)の上に簡単に実装できます。

Task Name	QR-DQN	REM	CQL(H)
Pong(1%)	-13.8	-6.9	19.3
Breakout	7.9	11.0	61.1
Q*bert	383.6	343.4	14012.0
Seaquest	672.9	499.8	779.4
Asterix	166.3	386.5	592.5

Agarwal等の1%のデータセットを使用したAtariゲームでのCQLのパフォーマンス

今後の考え
オフラインRLの急速に変化するフィールドに興奮しています。標準的なベンチマークへの第一歩を踏み出しましたが、明らかに改善の余地がまだあります。アルゴリズムの改善に伴い、ベンチマークのタスクを再評価し、より困難なタスクを開発する必要があると予想しています。コミュニティと協力して、ベンチマークと評価手順を進化させることを楽しみにしています。皆さんと連携して、オフラインRLが約束する豊かな未来を現実世界のアプリケーションにもたらすことができます。

謝辞
この研究は、カリフォルニア大学バークレー校の博士課程の大学院生(PhD student)であるAviral Kumar, Justin Fu 及び Aurick Zhouと共同で行われました。Google ResearchのOfir Nachumからの貢献がありました。