Dreamer:長期視点で考える事が出来る強化学習(3/3)

学習手法

1.Dreamer:長期視点で考える事が出来る強化学習(3/3)まとめ

・モデルベースのエージェントは500万フレーム未満、シミュレーション内の28時間で効率的に学習可能
・モデルフリーのエージェントは学習が遅く1億フレーム、23日間に相当する時間を必要とする
・Dreamerは現在の最高のモデルフリーエージェントの平均スコアを20倍少ない学習時間で達成

2.Dreamerの性能

以下、ai.googleblog.comより「Introducing Dreamer: Scalable Reinforcement Learning Using World Models」の意訳です。元記事の投稿は2020年3月18日、Danijar Hafnerさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Dakota Corbin on Unsplash

Dreamerのパフォーマンスを、以下の強化学習エージェントのパフォーマンスと比較しました。
従来の最高の(世界モデルを使う)モデルベースエージェントであるPlaNet、(世界モデルを使わない)モデルフリーエージェントで人気があるA3C、今回使用したベンチマークで最も優れたスコアを出したモデルフリーエージェントでモデルフリー強化学習の最新手法を幾つか組み合わせているD4PGです。

モデルベースのエージェントは、500万フレーム未満で効率的に学習できます。これは、シミュレーション内の28時間に相当します。モデルフリーのエージェントは学習が遅く、シミュレーションは23日間に相当する1億フレームを必要とします。

20のタスクで構成されるベンチマークで、Dreamerは823のスコアで、現在の最高のモデルフリーエージェントであるD4PGの平均スコア786を上回りました。これを20倍少ない学習時間で達成しています。

更に、ほとんど全てのタスクにおいて、従来の最高のモデルベースのエージェントであったPlaNetの最終的なパフォーマンスを凌駕しています。Dreamerのトレーニングに必要だった16時間は、他の方法が必要とした24時間よりも短いです。4つのエージェントの最終的なパフォーマンスを以下に示します。


Dreamerは、以前の最高のモデルフリー(D4PG)およびモデルベース(PlaNet)の手法を、最終的なパフォーマンス、データ効率、および計算時間の点で上回っています。

連続的な制御タスクに関する主な実験に加えて、断続的な行動が必要なタスクに適用することにより、Dreamerの一般化能力を示します。このために、反応的かつ長期視点での行動、空間認識、より多様な視覚的理解を必要とするAtariのゲームとDeepMind Lab levelsで実験をしました。

結果は以下です。Dreamerがこれらのより困難なタスクを効率的に学習して解決出来る事が示されました。


Dreamerは、AtariのゲームとDeepMind Lab levelsで成功に繋がる動作を学習できました。
上記には視覚的な多様性(複数の物体が存在する3D環境を含む)や断続的なアクションが必要なタスクが含まれます。

まとめ
私たちの研究は、世界モデルだけを用いて一連の行動を予測して学習することで、画像を入力として使う困難な視覚制御タスクを解決可能で、且つ従来のモデルフリーアプローチを上回るパフォーマンスを発揮できる事を示しています。

更に、Dreamerは、コンパクトな世界モデルを使って予測した連続した行動を勾配を通じて逆伝播させる事による学習が成功し、堅牢であり、様々な連続的および断続的な制御タスクに対応可能である事を示しています。

Dreamerは、より良い特徴表現学習、不確実性推定による統制的探査(directed exploration with uncertainty estimates)、時間的抽象化、マルチタスク学習など、強化学習の限界をさらに押し上げるための強力な基盤を提供すると考えています。

謝辞
このプロジェクトは、Timothy Lillicrap, Jimmy Ba そしてMohammad Norouziの共同研究です。
更に、Google Brainチームとチームの域を超えて、プロジェクトの随所でペーパードラフトにコメントし、フィードバックを提供してくれた皆さんに感謝します。

3.Dreamer:長期視点で考える事が出来る強化学習(3/3)関連リンク

1)ai.googleblog.com
Introducing Dreamer: Scalable Reinforcement Learning Using World Models

2)github.com
google-research/dreamer

 

コメント

タイトルとURLをコピーしました