1.ROBEL:3Dプリンタで作成可能な強化学習用ロボット(2/3)まとめ
・ROBELにはD’Clawを用いた操作タスクとD’Kittyを用いた歩行タスクが用意されている
・2つの機関でドキュメントと指示書のみを用いてROBELの構築と再現可能性が検証された
・その結果D’Clawロボットのトレーニングの進捗と最終パフォーマンスがはほぼ同じになった
2.ROBELの再現性
以下、ai.googleblog.comより「ROBEL: Robotics Benchmarks for Learning with Low-Cost Robots」の意訳です。元記事の投稿は2019年10月9日、Michael AhnさんとVikash Kumarさんによる投稿です。
ROBELベンチマーク
D’ClawとD’Kittyを用いた性能測定用に一連のタスクを考案しました。これらは、実際のロボット学習のベンチマークとして使用できます。
ROBELのタスク定義には、密なタスク目標と疎なタスク目標の両方が含まれています。また、タスク定義にハードウェア安全性の基準が導入されており、これは例えば、関節が「安全な」動作範囲または力のしきい値を超えていないかどうかを示します。
ROBELは、アルゴリズム開発と迅速なプロトタイプ開発を促進するために、すべてのタスクのシミュレーターもサポートしています。D’Clawタスクは、一般的に良く使われる3つの操作動作、姿勢の固定(Pose)、向きの変更(Turn)、回転動作(Screw)、を中心にしています。
Pose:ポーズ:環境に合わせて形状を変更します。
Turn:オブジェクトを指定した向きに回転させます。
Screws:オブジェクトを連続的に回転させます。
D’Kittyのタスクは、一般的に良く使われる3つの移動動作、立つ(Stand)、方向を変更(Orient)、歩行する(Walk)、を中心にしています。
Stand:直立します。
Orient:進捗方向を揃えます。
Walk:目標位置に移動します。
これらのベンチマークタスクのそれぞれについて、深層強化学習方法のいくつかのクラス(on-policy, off policy, demo-accelerated, supervised)を評価しました 評価結果と最終ポリシーは、比較のためにソフトウェアパッケージのベースラインとして含まれています。 完全なタスクの詳細とベースラインのパフォーマンスは、論文で読む事ができます。
再現性と堅牢性
ROBELプラットフォームは、直接ハードウェア上でトレーニングを継続する事に頑強であり、これまでに14,000時間を超える実世界での学習を記録しています。プラットフォームは一年で大幅に成熟しました。設計のモジュール性により、修理は簡単であり、専門知識が最小限から全くなくとも、システム全体の保守が容易になります。
プラットフォームの複製可能性とベンチマークの再現性を確立するために、ROBELは2つの異なる研究機関によって個々に試用されました。この試用では、ソフトウェアの配布とドキュメントのみが使用されました。人間が対面で使用方法について説明する事は許可しませんでした。
ROBELの設計ファイルと組み立て指示書を使用して、2つの研究機関は両方のハードウェアプラットフォームを複製できました。
ベンチマークタスクは、両方の機関で構築されたロボットで実行されました。次の図では、2つの異なるサイトで構築された2つのD’Clawロボットが同様のトレーニングの進捗を示すだけでなく、同じ最終パフォーマンスに収束し、ROBELベンチマークが再現性を確立していることがわかります。
異なる研究所で開発された2つの実際のD’Clawロボットを使ったSACトレーニングタスクのパフォーマンス比較
3.ROBEL:3Dプリンタで作成可能な強化学習用ロボット(2/3)関連リンク
1)ai.googleblog.com
ROBEL: Robotics Benchmarks for Learning with Low-Cost Robots
2)arxiv.org
ROBEL: Robotics Benchmarks for Learning with Low-Cost Robots
3)sites.google.com
roboticsbenchmarks
ROBEL Platforms
コメント