MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(2/3)

AI

1.MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(2/3)まとめ

・大規模マルチタスクデータ収集システムのタスク間バランスを取りMT-Optを構成
・MT-Optを使用すると類似タスクのゼロショットや初見タスクへの早期微調整が可能
・初見のタオルカバータスクでタオル把握で92%、タオル掛けで79%の成功率を達成

2.MT-Optとは?

以下、ai.googleblog.comより「Multi-Task Robotic Reinforcement Learning at Scale」の意訳です。元記事の投稿は2021年4月19日、Karol HausmanさんとYevgen Chebotarさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Andreeew Hoang on Unsplash

大規模マルチタスクデータ収集システム
MT-OptとActionable Modelsの両者で基礎となるものは、トレーニングデータの量と質です。

多様なマルチタスクデータを大規模に収集するには、ユーザーがタスクを指定可能で、更にデータを収集するタスクが何か決定する事が出来、最後に結果のデータセットを管理してバランスを取る方法が必要です。

そのために、選択した全てのタスクからのデータを使用して、規模拡大可能で直感的な「マルチタスク成功検出器(multi-task success detector)」を作成します。

マルチタスク成功検出器は、教師あり学習を使用してトレーニングされ、特定のタスクの結果を検出します。これにより、ユーザーは新しいタスクとその報酬をすばやく定義できます。

この成功検出器をデータ収集時に適用し、照明条件の変化、背景環境の変化、ロボットが発見する新しい状態など、さまざまな現実世界の要因によって引き起こされる分布の変化に対応させるために定期的に更新します。

次に、複数のロボットを使用して複数の異なるタスクからデータを同時に収集します。簡単なタスクを実行させる事で、より複雑なタスクを効果的に学習できるように底上げします。

これにより、より困難なタスクのポリシーのトレーニングが可能になり、それらのタスクのために収集されるデータが改善されます。そのため、タスクごとのデータの量と各タスクの成功したエピソードの数は、時間の経過とともに増加します。パフォーマンスを更に向上させるために、タスク間でデータを均一に収集するのではなく、パフォーマンスの低いタスクにデータ収集を集中させます。

このシステムは、9600ロボット時間のデータ(7台のロボットを使った57日連続データ収集日)を収集しました。ただし、このデータ収集戦略は多数のタスクのデータを収集するのに効果的でしたが、成功率とデータ量はタスク間で不均衡でした。

MT-Optを使った学習
タスク間でデータを転送し、タスクごとのデータのバランスを取り直すことで、データ収集の不均衡に対処します。ロボットは、各タスクの成功または失敗としてラベル付けされたエピソードを生成し、コピーして他のタスク間で共有します。次に、エピソードのバランスの取れたバッチがマルチタスクRLトレーニングパイプラインに送信され、MT-Optポリシーがトレーニングされます。


MT-Optが使用するデータ共有とタスクのリバランス戦略。ロボットはエピソードを生成し、そのエピソードは現在のタスクの成功または失敗としてラベル付けされ、他のタスク間で共有されます。

MT-OptはQ学習(Q-learning)を使用します。これは、Q関数と呼ばれる、報酬の将来の合計を推定する関数を学習する一般的なRL手法です。

次に、ポリシーは、この学習したQ関数を最大化するアクションを選択します。マルチタスクポリシートレーニングの場合、大規模なQ学習ネットワークへの追加入力としてタスクを指定します。(QT-Optを使用した大規模なシングルタスク学習に関する以前の研究に触発されました)

次に、マルチタスクデータセット全体を使用して、オフラインRLと同時にすべてのタスクをトレーニングします。このようにして、MT-Optは、特定の物体の選択、さまざまな器具の配置、ラック上のアイテムの位置合わせ、物体の再配置とタオル掛けなど、さまざまなスキルをトレーニングできます。

単一タスク手法と比較して、MT-Optは、利用可能なデータが最も多いタスクで同程度に実行可能で、取り上げられる事の少ないタスクにおいてパフォーマンスを大幅に向上させます。

従って、データが最も多い人気のあるリフティングタスクの場合、MT-Optは(QT-Optの88%と比較して)89%の成功率を達成しました。

稀なタスクでは全体で50%の平均成功率を達成しました。シングルタスクのQT-Optでは1%、ナイーブマルチタスクのQT-Optでは18%です。

MT-Optを使用すると、新しくとも類似したタスクへのゼロショット一般化が可能になるだけでなく、新しい、以前にやった事のないタスクにすばやく(7台のロボットを使った約1日のデータ収集で)微調整できます。

例えば、初見のタオルカバータスクに適用した場合、システムは、元のデータセットには存在しなかった、タオルピッキングで92%、物体へのタオル掛けで79%のゼロショット成功率を達成しました。

特定の実体把握や無差別な把握、追跡、配置、位置合わせ、再配置など、MT-Optが学習できるタスクの例

 


元のデータセットには存在しなかったタオルカバータスク
MT-Optを1日で微調整して、90%以上の高い成功率を達成しました。

 

3.MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(2/3)関連リンク

1)ai.googleblog.com
Multi-Task Robotic Reinforcement Learning at Scale

2)arxiv.org
MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale
Actionable Models: Unsupervised Offline Reinforcement Learning of Robotic Skills

3)karolhausman.github.io
MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale

4)actionable-models.github.io
Actionable Models:Unsupervised Offline Reinforcement Learning of Robotic Skills

タイトルとURLをコピーしました