MT-OptとActionable Models：複数ロボットで自動データ収集を行って初見タスクを実行可能にする(2/3)

１．MT-OptとActionable Models：複数ロボットで自動データ収集を行って初見タスクを実行可能にする(2/3)まとめ

・大規模マルチタスクデータ収集システムのタスク間バランスを取りMT-Optを構成
・MT-Optを使用すると類似タスクのゼロショットや初見タスクへの早期微調整が可能
・初見のタオルカバータスクでタオル把握で92%、タオル掛けで79%の成功率を達成

２．MT-Optとは？

以下、ai.googleblog.comより「Multi-Task Robotic Reinforcement Learning at Scale」の意訳です。元記事の投稿は2021年4月19日、Karol HausmanさんとYevgen Chebotarさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Andreeew Hoang on Unsplash

大規模マルチタスクデータ収集システム
MT-OptとActionable Modelsの両者で基礎となるものは、トレーニングデータの量と質です。

多様なマルチタスクデータを大規模に収集するには、ユーザーがタスクを指定可能で、更にデータを収集するタスクが何か決定する事が出来、最後に結果のデータセットを管理してバランスを取る方法が必要です。

そのために、選択した全てのタスクからのデータを使用して、規模拡大可能で直感的な「マルチタスク成功検出器(multi-task success detector)」を作成します。

マルチタスク成功検出器は、教師あり学習を使用してトレーニングされ、特定のタスクの結果を検出します。これにより、ユーザーは新しいタスクとその報酬をすばやく定義できます。

この成功検出器をデータ収集時に適用し、照明条件の変化、背景環境の変化、ロボットが発見する新しい状態など、さまざまな現実世界の要因によって引き起こされる分布の変化に対応させるために定期的に更新します。

次に、複数のロボットを使用して複数の異なるタスクからデータを同時に収集します。簡単なタスクを実行させる事で、より複雑なタスクを効果的に学習できるように底上げします。

これにより、より困難なタスクのポリシーのトレーニングが可能になり、それらのタスクのために収集されるデータが改善されます。そのため、タスクごとのデータの量と各タスクの成功したエピソードの数は、時間の経過とともに増加します。パフォーマンスを更に向上させるために、タスク間でデータを均一に収集するのではなく、パフォーマンスの低いタスクにデータ収集を集中させます。

このシステムは、9600ロボット時間のデータ(7台のロボットを使った57日連続データ収集日)を収集しました。ただし、このデータ収集戦略は多数のタスクのデータを収集するのに効果的でしたが、成功率とデータ量はタスク間で不均衡でした。

MT-Optを使った学習
タスク間でデータを転送し、タスクごとのデータのバランスを取り直すことで、データ収集の不均衡に対処します。ロボットは、各タスクの成功または失敗としてラベル付けされたエピソードを生成し、コピーして他のタスク間で共有します。次に、エピソードのバランスの取れたバッチがマルチタスクRLトレーニングパイプラインに送信され、MT-Optポリシーがトレーニングされます。