ROBEL:3Dプリンタで作成可能な強化学習用ロボット(2/3)

１．ROBEL:3Dプリンタで作成可能な強化学習用ロボット(2/3)まとめ

・ROBELにはD’Clawを用いた操作タスクとD’Kittyを用いた歩行タスクが用意されている
・２つの機関でドキュメントと指示書のみを用いてROBELの構築と再現可能性が検証された
・その結果D’Clawロボットのトレーニングの進捗と最終パフォーマンスがはほぼ同じになった

２．ROBELの再現性

以下、ai.googleblog.comより「ROBEL: Robotics Benchmarks for Learning with Low-Cost Robots」の意訳です。元記事の投稿は2019年10月9日、Michael AhnさんとVikash Kumarさんによる投稿です。

ROBELベンチマーク
D’ClawとD’Kittyを用いた性能測定用に一連のタスクを考案しました。これらは、実際のロボット学習のベンチマークとして使用できます。

ROBELのタスク定義には、密なタスク目標と疎なタスク目標の両方が含まれています。また、タスク定義にハードウェア安全性の基準が導入されており、これは例えば、関節が「安全な」動作範囲または力のしきい値を超えていないかどうかを示します。

ROBELは、アルゴリズム開発と迅速なプロトタイプ開発を促進するために、すべてのタスクのシミュレーターもサポートしています。D’Clawタスクは、一般的に良く使われる3つの操作動作、姿勢の固定(Pose)、向きの変更(Turn)、回転動作(Screw)、を中心にしています。

Pose：ポーズ：環境に合わせて形状を変更します。

Turn：オブジェクトを指定した向きに回転させます。

Screws：オブジェクトを連続的に回転させます。

D’Kittyのタスクは、一般的に良く使われる3つの移動動作、立つ(Stand)、方向を変更(Orient)、歩行する(Walk)、を中心にしています。

Stand：直立します。

Orient：進捗方向を揃えます。

Walk：目標位置に移動します。

これらのベンチマークタスクのそれぞれについて、深層強化学習方法のいくつかのクラス(on-policy, off policy, demo-accelerated, supervised)を評価しました評価結果と最終ポリシーは、比較のためにソフトウェアパッケージのベースラインとして含まれています。完全なタスクの詳細とベースラインのパフォーマンスは、論文で読む事ができます。

再現性と堅牢性
ROBELプラットフォームは、直接ハードウェア上でトレーニングを継続する事に頑強であり、これまでに14,000時間を超える実世界での学習を記録しています。プラットフォームは一年で大幅に成熟しました。設計のモジュール性により、修理は簡単であり、専門知識が最小限から全くなくとも、システム全体の保守が容易になります。

プラットフォームの複製可能性とベンチマークの再現性を確立するために、ROBELは2つの異なる研究機関によって個々に試用されました。この試用では、ソフトウェアの配布とドキュメントのみが使用されました。人間が対面で使用方法について説明する事は許可しませんでした。

ROBELの設計ファイルと組み立て指示書を使用して、２つの研究機関は両方のハードウェアプラットフォームを複製できました。

ベンチマークタスクは、両方の機関で構築されたロボットで実行されました。次の図では、2つの異なるサイトで構築された2つのD’Clawロボットが同様のトレーニングの進捗を示すだけでなく、同じ最終パフォーマンスに収束し、ROBELベンチマークが再現性を確立していることがわかります。

異なる研究所で開発された2つの実際のD’Clawロボットを使ったSACトレーニングタスクのパフォーマンス比較