ロボット工学における進化的メタラーニングの探索(3/3)

AI

1.ロボット工学における進化的メタラーニングの探索(3/3)まとめ

・ES-MAMLは優れたパフォーマンスを持つが現実世界に展開する事は依然として困難
・現実世界のデータをできるだけ少なくするために、新規にバッチ山登り法を導入
・その結果、現実世界の実データの必要性を大幅に減らし既存手法と比較して性能向上を達成

2.ES-MAMLの性能

以下、ai.googleblog.comより「Exploring Evolutionary Meta-Learning in Robotics」の意訳です。元記事の投稿は2020年4月21日、Xingyou (Richard) SongさんとYuxiang Yangさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Mika Baumeister on Unsplash

現実世界での適応
シミュレーション環境内におけるES-MAMLの優れたパフォーマンスにもかかわらず、これを現実世界のロボットに適用することは依然として困難です。

現実世界のノイズの多い環境に効果的に適応しながら、現実世界のデータをできるだけ少なくするために、新規にバッチ山登り法(batch hill-climbing)を導入します。

バッチ山登り法は、以前のzeroth-order blackbox optimizationに関する研究をベースとするES-MAMLへの追加アドオンです。

決定目標に従って入力を1つずつ繰り返し更新する山登り法を実行するのではなく、バッチ山登り法はクエリの並列バッチをサンプリングする事で次の入力を決定します。これにより、目標内に大量のノイズが含まれていても堅牢になります。

次に、2つのタスクでこの手法をテストします。この2つのタスクはロボットの通常設定を途中で変更するように設計されています。


重量電圧タスク(左)では、500gの重りをロボットの側面に配置し、電圧を16.8Vから10.0Vに低下させました。
摩擦タスク(右)では、ゴム足がテニスボールに交換され、床面との摩擦を大幅に減らして歩行を妨げるようにしました。

重量電圧タスクでは、当初のメタポリシーはロボットをかなり右方向に動かしました。余分な質量と電圧の変化が原因でロボットの体と脚のモーターに不均衡が生じたためです。

しかしながら、私達の方法を使用して30エピソードを適用させた後、ロボットは歩行体勢を正す事ができるようになり、50エピソードの後、ロボットは完全に身体のバランスをとって、より長い距離を歩く事が出来るようになりました。

参考までに、シミュレーションのみでノイズのない簡単なタスクをゼロからトレーニングするには、約90,000エピソードが必要です。私達の手法は、現実世界の高価で複雑な実データの必要性を大幅に減らせる事を示しています。


重量電圧タスクの適応フェーズ中の質的変化

私達はES-MAMLをdomain randomization、及びstandard policy gradient approach(MAML(PG-MAML))と比較し、最終的なポリシーを定性的に提示するとともに、実際のロボットを使って動かし、各手法の適応度合を調べました。

その結果、domain randomization化もPG-MAMも、ES-MAMLと同レベルには適応していない事がわかりました。

ES-MAMLとdomain randomizatioとPG-MAMLとの比較
また、メタポリシーと適応後ポリシーのグラフ
上:重量電圧タスクでの比較。私たちの手法は、ロボットの車体を安定させます
下:摩擦タスクの比較。私たちの手法は、より長く移動できます。

 

Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning

将来の研究
本研究は、将来の開発のためのいくつかの方向性を導きます。

1つのオプションは、アルゴリズムを改善して、適応に必要な手間を減らすことです。

進歩が見込めるもう一つの領域は、生涯学習システム(lifelong learning system)でのモデルベースの強化学習技術の使用です。生涯学習システムは、ロボットがデータを収集し、ポリシーをすばやく調整して、新しいスキルを学び、新しい環境で最適に動作する事を継続的に行う事を目標とするシステムです。

謝辞
この研究は、ES-MAMLコアチーム(Xingyou Song, Yuxiang Yang, Krzysztof Choromanski, Ken Caluwaerts, Wenbo Gao, Chelsea Finn, そして Jie Tan)によって実施されました。ESメソッドのサポートについてはVikas Sindhwaniに、論文についてのフィードバックはDaniel Seitaに感謝します。

3.ロボット工学における進化的メタラーニングの探索(3/3)関連リンク

1)ai.googleblog.com
Exploring Evolutionary Meta-Learning in Robotics

2)arxiv.org
Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning

3)bair.berkeley.edu
Learning to Learn

コメント

タイトルとURLをコピーしました