PlaNet：画像入力から世界モデルを学ぶ強化学習(3/3)

１．PlaNet：画像入力から世界モデルを学ぶ強化学習(3/3)まとめ

・PlaNetは一つのエージェントで６つの異なるタスクを行うように訓練する事ができた
・比較的単純なタスクに対する学習は遅かったが複雑なタスクは素早く学習し高いレベルに達した
・学習ダイナミクスモデルが有望である事を示せたので今後も3D環境や実世界のロボットに研究を拡大予定

２．Deep Planning Networkとは？

以下、ai.googleblog.comより「Introducing PlaNet: A Deep Planning Network for Reinforcement Learning」の意訳です。元記事は2019年2月15日、Danijar Hafnerさんによる投稿です。こちらからの続きです。

１つのエージェントで全てのタスクを実行
私達は更に、6つのタスク全てを実行できるように1つのPlaNetエージェントをトレーニングしました。エージェントはタスクを知らずにランダムに異なる環境に配置されるので、画像を観測してタスクを推測する必要があります。最終的にハイパーパラメータを変更しなくても、マルチタスクエージェントは個々のエージェントと同じ平均パフォーマンスを達成しました。

比較的単純なカートポールタスクでは学習速度は遅かったのですが、探索を必要とする挑戦的な歩行タスクでは最終的にかなり早く高いパフォーマンスに到達しました。

複数のタスクについてトレーニングするPlaNetエージェント。
訓練されたエージェントから収集されたホールドアウトエピソードは上段に、そして開ループ(open-loop:現在の状態と制御システムのモデルのみを使って実行する)エージェントによる想像は下段に示されています。エージェントは最初の5フレームの状況を観察してタスクと状態を推測し、一連のアクションを考慮して50のステップについて的確に予測します。

まとめ
私達の結果は自律型強化学習エージェントを構築するために学習ダイナミクスモデルが有望である事を示しています。私達は3D環境や実世界のロボット作業など、さらに困難な作業に関する正確なダイナミクスモデルの学習に焦点を当てたさらなる研究を提唱します。スケールアップのために考えられる要素は、TPUの処理能力です。私達は、マルチタスク学習、階層的プランニング、不確実な推定を用いたアクティブ探査など、モデルベースの強化学習が切り開く可能性に興奮しています。

謝辞
このプロジェクトは、Timothy Lillicrap、Ian Fischer、Ruben Villegas、Honglak Lee、David Ha、James Davidsonとのコラボレーションです。私達は私達のペーパードラフトについてコメントし、プロジェクトのいたるところでフィードバックを提供してくれた皆さんにさらに感謝します。

(PlaNet：画像入力から世界モデルを学ぶ強化学習(2/3)からの続きです)