Dreamer：長期視点で考える事が出来る強化学習(1/3)

１．Dreamer：長期視点で考える事が出来る強化学習(1/3)まとめ

・世界モデルを使用しない強化学習は学習に大量の試行錯誤と時間が必要なため実用性が制限される
・世界モデルを使用する強化学習もプランニングメカニズムがネックになり能力が制限されている
・既存モデルを改良し長期視点から最適な行動を学習出来る強化学習エージェントDreamerが発表

２．Dreamerとは？

以下、ai.googleblog.comより「Introducing Dreamer: Scalable Reinforcement Learning Using World Models」の意訳です。

元記事の投稿は2020年3月18日、Danijar Hafnerさんによる投稿です。

比較的簡単にイメージ画像が見つかる命名でありがたかったDreamerな赤ちゃんのアイキャッチ画像のクレジットはPhoto by Dakota Corbin on Unsplash

2021年2月追記)後続研究のDreamer V2が発表されています。

どのようすれば人工知能エージェントが目標を達成するためのアクションを自動で選択する事ができるようになるかについての研究は、主に強化学習(RL)により、急速な進歩を遂げています。試行錯誤によって成功するアクションを予測することを学習するモデルフリーな(世界モデルを使用しない)RLアプローチにより、DeepMindのDQNはAtariのゲームをプレイする事ができ、AlphaStarはStarcraft IIで世界チャンピオンを倒すことができましたが、実行環境と大量の相互作用を必要とするため(つまり、非常に時間がかかったりハードウェアが摩耗したりしてしまうため)、現実世界での実際の有用性は制限されています。

対照的に、(世界モデルを使用する)モデルベースのRLアプローチは、単純化された実行環境の世界モデルを学習します。この世界モデルにより、エージェントは一連のアクションの結果を潜在的に予測できるようになるため、仮想シナリオを介して新しい状況で十分な情報に基づいた決定を下すことができるので、目標を達成するために必要な試行錯誤を減らすことができます。

従来は、正確な世界モデルを学習し、それらを活用して成功する行動を学習することは困難でした。Deep Planning Network(PlaNet)などの最近の研究は、画像から正確な世界モデルを学習することでこれらの限界を押し広げましたが、モデルベースのアプローチは、非効率的または計算コストの高いプランニングメカニズムによって依然として抑制されており、困難なタスクを解決する能力が制限されています。

本日、DeepMindと共同で、画像から世界モデルを学習し、それを使用して長期視点から考えて最適な行動を学習する事が出来るRLエージェントであるDreamerを紹介します。Dreamerは、その世界モデルを活用して、モデルの予測を逆伝播して行動を効率的に学習します。生の画像からコンパクトなモデルの状態を計算することを学習して、エージェントはたった1つのGPUで、数千の予測された行動を効率的に並列学習できます。Dreamerは、生の画像入力を与えられた20の連続制御タスクから構成されるベンチマークで、パフォーマンス、データ効率、および計算時間の短さで最先端のスコアを達成しました。RLのさらなる進歩を促進するために、ソースコードを研究コミュニティにリリースしています。

Dreamerの仕組み
Dreamerは、典型的なモデルベース手法の3つのプロセスで構成されています。世界モデルを学習し、世界モデルを使って行われた予測から行動を学習し、学習した行動を実行環境で実行して新しい経験を収集するのです。行動を学ぶために、Dreamerはバリューネットワークを使用して計画期間を超えた長期目線で報酬を考慮し、アクターネットワークを使用してアクションを効率的に計算します。この3つのプロセスは並行して実行可能で、エージェントが目標を達成するまで繰り返されます。

Dreamerエージェントの3つのプロセス。世界モデルは過去の経験から学習されます。このモデルの予測から、エージェントはバリューネットワークを学習して将来の報酬を予測し、アクターネットワークを学習してアクションを選択します。アクターネットワークは、環境と対話するために使用されます。