ROBEL:3Dプリンタで作成可能な強化学習用ロボット(1/3)

１．ROBEL:3Dプリンタで作成可能な強化学習用ロボット(1/3)まとめ

・シミュレーション環境でロボットを強化学習させると微妙な誤差や遅延により現実世界への展開が困難
・しかし、物理的なロボットは高価で工業用途向けに作られているために強化学習に最適ではない
・だったら安価に利用可能なロボットを作ってしまえ！と言う事で３Dプリンタで作成可能なロボットを設計

２．ROBELとは？

以下、ai.googleblog.comより「ROBEL: Robotics Benchmarks for Learning with Low-Cost Robots」の意訳です。元記事の投稿は2019年10月9日、Michael AhnさんとVikash Kumarさんによる投稿です。

ロボット制御の問題を解決するための学習ベースの手法は、シミュレートされたベンチマーク(dm_controlやOpenAI-Gymなど)が広く利用可能になった事と、柔軟でスケーラブルな強化学習技術(DDPG, QT-Opt, またはSoft Actor-Critic)の進歩により、最近大きな勢いが見られます。

シミュレーションによる学習は効果的ですが、これらのシミュレーション環境の学習結果は、物理現象やシステム遅延などの不正確なモデリングの影響により、実際のロボットにそのまま展開する事が困難になる事がよくあります。これは、実際の物理ハードウェア上で、現実のロボットを直接制御する解決策を開発する動機に繋がります。

物理的なハードウェアを使って行う現実世界のロボット研究の大部分は、高コストな環境で実施されています。制御された環境下で正確で監視された操作を目的とした工業用品質の高価なロボット(PR2, Kuka-arms, ShadowHand, Baxter等)を使っているためです。

更に、これらのロボットは、精度の高さや同じ動作を正確に繰り返せる事など、特性評価の容易さに重点を置いた従来の制御方法を中心に設計されています。

これは、センサー情報と稼働能力が不完全な環境下でも堅牢に動作する事を求める学習ベースの手法とは対照的です。学習ベースの手でには以下のようなニーズが存在します。

(a)現実世界での試行錯誤学習を可能にする高度な耐久性
(b)複製により規模を容易に拡大できる低コスト性およびメンテナンスの容易さ
(c)厳格な人間の監視要件を軽減するための信頼できるリセットの仕組み

CoRL 2019で発表される論文「ROBEL: Robotics Benchmarks for Learning with Low-Cost Robots」では、費用対効果の高いロボットのオープンソースプラットフォームを紹介します。これは、主に現実世界の物理ハードウェア上での研究開発を促進するために設計されたベンチマークをまとめたものです。

光学分野の光学テーブルと同様に、ROBELは迅速な実験プラットフォームとして機能し、幅広い実験ニーズと新しい強化学習および制御方法の開発をサポートします。

ROBELは、
D’Claw：器用な操作タスクの学習を容易にする3本指のハンドロボット
D’Kitty：敏捷な脚歩行タスクの学習を可能にする4脚ロボット
から構成されています。

このロボットプラットフォームは、低コストでモジュール式であり、保守が容易であり、ハードウェア上で強化学習をゼロから学習させるために十分な耐久性を備えています。

左：12自由度のD’Kitty、中央：9自由度のDClaw、右：D’Clawを組み合わせたD’Lantern