1.World Models Library:強化学習で将来の画像を予測する事に意味はあるのか?(1/2)まとめ
・原則として強化学習で計画立案に厳密に必要なのは、将来の報酬を予測することだけ
・しかし、最近の多くの強化学習手法で将来の画像を予測するトレーニング信号を加えている
・将来の画像を予測するための計算量は多いがどのような利点が得られているのか調査
2.World Models Libraryとは?
以下、ai.googleblog.comより「Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning」の意訳です。元記事の投稿は2021年2月3日、Mohammad BabaeizadehさんとDumitru Erhanさんによる投稿です。
人工知能の学習に関する研究を読んでいると、人間の学習にも当てはまるな、と感じる事が多いのですが、今回も「教科書から学習してパフォーマンスを出す人」と「試行錯誤を通じてパフォーマンスを出す人」の違いに通じる話に感じます。
ワールドモデルを観察しているイメージから選んだアイキャッチ画像のクレジットはPhoto by Antonella Vilardo on Unsplash
モデルフリー(Model-free)の強化学習は、ロボット工学、制御、ゲームのプレイ、自動運転車など、さまざまな分野で成功が実証されています。これらのシステムは、単純な試行錯誤によって学習するため、特定のタスクを解決する前に、膨大な数の試行を必要とします。
対照的に、モデルベースの強化学習(MBRL:Model-Based Reinforcement Learning)は、エージェントが潜在的なアクションの結果を予測できるようにする環境のモデル(多くの場合、世界モデル(world model)またはダイナミクスモデル(dynamics model)と呼ばれます)を学習します。これにより、エージェントは潜在的なアクションの結果を予測できるようになり、タスクを解決するために必要な環境との相互作用の量が削減されます。
原則として、強化学習で計画立案に厳密に必要なのは、将来の報酬を予測することだけです。これを使用して、ほぼ最適な将来のアクションを選択できます。それにもかかわらず、Dreamer、PlaNet、SimPLeなどの最近の多くの強化学習手法では、将来の画像を予測するトレーニング信号を加えて活用しています。
しかし、将来の画像を予測することは実際に必要なのでしょうか?
必要でなくとも何かの役に立っているのでしょうか?
視覚を扱うMBRLアルゴリズムは、将来の画像を予測することから実際にどのような利点が得られるのでしょうか?
画像全体を予測するための計算および表現コストはかなりのものであるため、これが実際に役立つかどうかを理解することは、MBRLの研究にとって非常に重要です。
論文「Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning」では、将来の画像を予測することは大きなメリットをもたらし、実際、視覚的なMBRLエージェントのトレーニング成功させる上で重要な要素であることを示しています。
私達はWorld Models Libraryと呼ばれる新しいオープンソースライブラリを開発しました。これにより、様々なワールドモデルの設計を厳密に評価して、それぞれの報酬に対する画像予測の相対的な影響を判断できます。
World Models Library
視覚的なMBRLトレーニングと評価のために特別に設計されたWorld Models Libraryは、大規模で複数のタスクにわたるエージェントの最終的なパフォーマンスに対する各設計決定の影響の経験的研究を可能にします。
3.World Models Library:強化学習で将来の画像を予測する事に意味はあるのか?(1/2)関連リンク
1)ai.googleblog.com
Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning
2)arxiv.org
Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning
3)github.com
google-research / world_models
訳注:強化学習における「モデルベース」のモデルとは「世界モデル」の事です。自分を取り巻く世界がどのような法則に支配されているのか、そのモデル構造を知っていれば、リンゴが地面に落ちるのであればミカンも地面に落ちるはずだと推測できるので、わざわざミカンを空中に放り投げて試行錯誤する必要がなくなります。そのため、世界モデルを意識できるモデルベースの強化学習は学習回数を減らす事ができます。
実際、人間の赤ちゃんは「世界モデル」を探究する行為を行っている事が観察されており、人工知能と人間の学習効率の違いは、「世界モデル」を意識できているかの差であると考えられています。
「モデルフリー」の強化学習は「世界モデル」を意識できていないので、空中に放り投げた物体がどのようになるかは、その物体を空中に放り投げて結果を観察しなければ学習する事ができません。