1.ロボット工学における進化的メタラーニングの探索(2/3)まとめ
・MAMLの代わりに進化的戦略であるES-MAMLを使うと確率性に関する競合を回避できる
・ESはパラメータが少ないため展開が容易で電力効率が高く効率的でコンパクトな学習が可能
・ロボット歩行タスクで実践した所メタポリシーでは対応が難しいタスクも対応可能であった
2.ES-MAMLとは?
以下、ai.googleblog.comより「Exploring Evolutionary Meta-Learning in Robotics」の意訳です。元記事の投稿は2020年4月21日、Xingyou (Richard) SongさんとYuxiang Yangさんによる投稿です。
アイキャッチ画像のクレジットはPhoto by Mika Baumeister on Unsplash
ロボット工学における進化的戦略
MAMLの代わりに、ES-MAML(Evolutionary Strategy – Model-Agnostic Meta-Learning)を使用することでこれらの課題を解決します。これは、従来と劇的に異なったパラダイム、すなわち進化的戦略を活用して最適化するアルゴリズムです。
ES-MAMLアプローチは、環境内のエージェントが収集した報酬の合計のみに基づいてポリシーを更新します。ポリシーの最適化に使用される関数はブラックボックスで、ポリシーのパラメータをこの報酬に直接マッピングします。
policy gradient methodsとは異なり、このアプローチは「状態/アクション/報酬」の組を収集する必要も、アクションが実行される可能性を推定する必要もありません。これにより、確定的ポリシー(deterministic policies)の使用とパラメーターの変更に基づいた探索ができるようになり、ポリシーと環境に存在する確率性に関する競合状態を回避できます。
ESは、通常、シミュレータで直接エピソードを実行しますが、現実世界のハードウェアで収集されたエピソードにも適用する事ができます。
ESの最適化は簡単に配布可能で、また、パラメーターが少ないため、ポリシーは実際のハードウェアに簡単に展開できます。その結果、推論と電力使用効率を高めることができ、効率的でコンパクトにポリシーをトレーニングする用途で適しています。
130未満のパラメータで適応可能なメタポリシーを学習することにより、コンパクトポリシーのトレーニングにおけるESの有効性を確かめました。
ESによる最適化パラダイムは非常に柔軟です。例えば、ロボット工学では総報酬目標(total reward objective)など、区別できない目標(non-differentiable objectives)を最適化するために使用できます。
また、(潜在的に敵対的な)かなりのノイズが存在しても機能します。更に、ES手法の最新の形式(ガイド付きESなど)は、以前のバージョンよりもはるかにサンプル効率が高くなっています。
この柔軟性は、移動用メタポリシーを効率的に適応させる際に不可欠です。私達の研究結果は、ESを用いた適応が現実世界のロボットを使ったエピソードをわずかに追加するだけで実行できることを示しています。
このように、ESは単に最先端のアルゴリズムの魅力的な代替手段であるだけでなく、いくつかの困難な強化学習タスクに対する最先端のテクニックとなります。
シミュレーション内での適応
まず、シミュレーションでES-MAMLを使用してトレーニングするときに現れる適応のタイプを調べます。
シミュレーションでポリシーをテストしたところ、ダイナミクスを大きく変化させるとメタポリシーはロボットを強制的に停止してしまうのに対し、適応後ポリシーはロボットを再び安定して歩行できるようにする事がわかりました。
更に、ロボットの脚の設定が変更されると、メタポリシーではロボットの脚の同期がとれなくなり、ロボットが急激に回転運動を初めてしまう一方で、適応後ポリシーはロボットの動きを修正し、ロボットが再び直進できるようにします。
メタポリシーによる歩行。対応が困難な変化に直面したときに問題が発生します。
左:メタポリシーでは、ロボットは停止してしまいます。
中央:適応後ポリシーは、ロボットが正しく歩き続ける事を保証します。
右:ロボットの高さのブレと歩ける時間の比較
ロボットの脚の設定が変更された時のメタポリシーの歩行
左:メタポリシーでは、ロボットは右回転してしまいます。
中央:適応後ポリシーにより、ロボットは直線的に歩き続ける事ができます。
右:ロボットの歩行方向の比較測定
3.ロボット工学における進化的メタラーニングの探索(2/3)関連リンク
1)ai.googleblog.com
Exploring Evolutionary Meta-Learning in Robotics
2)arxiv.org
Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning
3)bair.berkeley.edu
Learning to Learn
コメント