ROBEL:3Dプリンタで作成可能な強化学習用ロボット(3/3)

１．ROBEL:3Dプリンタで作成可能な強化学習用ロボット(3/3)まとめ

・ROBELは剛い物体も柔らかい物体も扱う事が出来、予期せぬ妨害や障害に関しても対応可能
・複数のD’Clawが経験を共有することで、タスクをまとめてより速く学習する事も可能
・屋内および屋外の様々な地形条件に対応可能した歩行、及び目標への到達動作を行う事が可能

２．ROBELの始め方

以下、ai.googleblog.comより「ROBEL: Robotics Benchmarks for Learning with Low-Cost Robots」の意訳です。元記事の投稿は2019年10月9日、Michael AhnさんとVikash Kumarさんによる投稿です。

結果ギャラリー
ROBELは、これまで様々な強化学習の研究に役立ちました。

以下で主要な成果のいくつかを紹介します。sites.google.comのギャラリーで包括的に全ての成果を見つけることができます。D’Clawプラットフォームは完全に自律的であり、長期間にわたって信頼性の高い実験を維持でき、剛体(rigid)と弾性体(Flexible)の両方のオブジェクトを使用して、さまざまな強化学習パラダイムとタスクの実験を促進しました。

弾性体
DAPGを使用したハードウェアトレーニングは、柔らかいオブジェクトの取り扱いを効果的に学習します。バルブの中心の比較的剛性が高い箇所をターゲットにした操作が観察されます。D’Clawは、ハードウェアトレーニングに対して堅牢であり、ハードなシミュレーションタスクで成果を上げるのに役立ちます。

妨害の除去
MuJoCoシミュレーションでNatural Policy Gradientを介してトレーニングされたSim2Realポリシー。特に、オブジェクトの動きが妨害される状況をハードウェア上でテストしています。その結果、外部からの干渉に抵抗するために指を動かす操作が観察されます。

妨害された指
MuJoCoシミュレーションでNatural Policy Gradientを介してトレーニングされたSim2Realポリシー。特に、外部からの予期せぬ妨害(摂動)を受ける状況をハードウェア上でテストしています。妨害された指が本来行う作業を自由になる指で補う操作が観察されます。

重要な点として、D’Clawプラットフォームはモジュール式であり、複製が容易であるため、規模を拡大した実験が容易になります。拡大された環境では、複数のD’Clawが経験を共有することで、タスクをまとめてより速く学習できることがわかりました。

経験を共有することにより、複数の異なったオブジェクトを任意の角度に合わせて傾けるトレーニング。SACの分散バージョンを使用してハードウェア上でトレーニングを行っています。5つの異なったタスクは、マルチタスク定式化のおかげで、単一タスクの2倍の経験しか必要としません。ビデオでは、5つのD’Clawsがさまざまなオブジェクトを180度回転させている様子が確認されます。(この動画では視覚的にわかりやすくするために同じ方角に改定していますが、実際のポリシーは任意の角度にターゲットを変更できます)。

また、D’Kittyプラットフォームに堅牢な移動ポリシーを導入することに成功しています。以下に、目に見えない障害が存在する条件下での歩行動作の堅牢性を示す、屋内および屋外の地形を歩いているD’Kittyを示します。

屋内：ドタバタと歩く：ランダムな障害が存在する環境下でMuJoCoシミュレーションのNatural Policy Gradientを介してトレーニングされたSim2Realポリシーは、ドタバタと歩いてオブジェクトを乗り越える事をを学習します。

屋外：砂利と枝：ランダム化された高低差のある環境下でMuJoCoシミュレーションのNatural Policy Gradientを介してトレーニングされたSim2Realポリシーは、屋外の砂利と枝の上を歩くことを学習します。

屋外：勾配と芝生：ランダム化された高低差のある環境下でMuJoCoシミュレーションのNatural Policy GradientでトレーニングされたSim2Realポリシーは、緩やかな勾配の歩き方を学習します。

D’Kittyは、自身の胴体と周囲に存在するオブジェクトに関する情報を提示されると、複雑な動作を示すこれらのオブジェクトとの相互作用を学ぶことができます。

障害物の移動の回避
階層的Sim2Realを介してトレーニングされたポリシーは、移動するブロックを回避し、目標(床においてあるコントローラー)に到達することを学習します。

移動する目標に向かって押す
階層的Sim2Realを介してトレーニングされたポリシーは、移動する目標(人間が手に持ったコントローラー)に向かってブロックを押すことを学習します。

階層的Sim2Realを介してトレーニングされたポリシーは、2つのD’Kittiesを調整して、目標に向かって重いブロックを押すことを学習します。(床にある2つの+記号が目標です)

結論ですが、ROBELプラットフォームは低コスト、堅牢性、信頼性があり、スケーラビリティと回復力を必要とする新しい学習ベースのパラダイムのニーズに対応するように設計されています。ROBELのオープンソースコミュニティへのリリースを発表できることを誇りに思っており、ROBELが可能にする研究と実験の多様性について学べる事を楽しみにしています。ROBELプラットフォームとROBELベンチマークの使い方については、roboticsbenchmarksを参照してください。

謝辞
GoogleのROBEL D’Clawは、ワシントン大学とバークレー大学で開発されたVikash Kumarの初期の設計から発展しました。複数の人々が組織を横断してROBELプロジェクトに貢献しています。

共同執筆者のHenry Zhu (UC Berkeley), Kristian Hartikainen (UC Berkeley), Abhishek Gupta (UC Berkeley) 及び Sergey Levine (Google and UC Berkeley) のプロジェクト全体への貢献と広範なフィードバックに感謝します。

プラットフォーム設計に多大な貢献をしてくれたMatt Neiss(Google)とChad Richards(Google)に感謝します。また、プロジェクト全体での有益な議論とコメントについて、Aravind Rajeshwaran((U-Washington), Emo Todorov((U-Washington), and Vincent Vanhoucke(Google)に感謝します。