BC-Z:ロボットは完全に新しい作業を指示に従って実行できるようになれるのか？(1/2)

１．BC-Z:ロボットは完全に新しい作業を指示に従って実行できるようになれるのか？(1/2)まとめ

・既存のロボット工学は新しい対象やタスク、目標に汎化できるようにする研究が多い
・指示を元に全く新しいタスクをロボットが実行できるようになる事を目指す研究はほぼない
・BC-Zではロボットが明示的に訓練されていない新タスクを指示に基づいて完了させる事が可能

２．BC-Zとは？

以下、ai.googleblog.comより「Can Robots Follow Instructions for New Tasks?」の意訳です。元記事は2022年2月2日、Chelsea FinnさんとEric Jangさんによる投稿です。

ロボットにブドウを皿に入れるタスクを指示しているようにも見えるアイキャッチ画像のクレジットはPhoto by Suad Kamardeen on Unsplash

人は物理的な環境の中で柔軟に物体を操作し、様々な目的を達成することができます。ロボット工学の壮大な課題の1つは、同様な能力を実現するようにロボットをうまく訓練すること、つまり、ユーザーの任意の命令に基づいて多様な作業を実行できる汎用的なロボットを開発することです。

また、実世界で運用されるロボットは、訓練時には見られなかった新しいユーザーの指示や状況に遭遇することが避けられません。そのため、ロボットは様々な状況下で複数の作業をこなせるように訓練されることが必須であり、さらに重要なことは、たとえその作業について明示的に訓練されていなかったとしても、人間のユーザーからの要求に応じて新しい作業を解決することができるようになることです。

既存のロボット工学の研究では、ロボットが新しい対象、タスクの内容、目標に対して汎化できるようにするために進歩してきました。しかし、完全に新しいタスクを記述した命令をロボットがこなせるようにすることは、ほとんど手つかずのままです。

この問題は、ロボットが新しい指示を解読し、そのタスクに関する学習データなしにタスクを完了する方法を特定する必要があるため、非常に困難です。また、風景や物体の位置の変動など、汎化するために必要な他の軸を同時に扱う必要がある場合には、この目標はさらに困難となります。

そこで、私たちは問います。

生の画素情報を元に複雑な操作を行う実機のロボットに、どのようにして特筆すべき汎化能力を与えることができるのでしょうか？

さらに、言語モデルの汎化能力は、実際のロボットの視覚運動制御のような他の領域でより良い汎化を支援することができるのでしょうか？

CoRL 2021で発表された論文「BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning」では、ロボットがどのようにして訓練されていない新しいタスクに汎化できるかを研究した新しい研究を紹介します。

BC-Zと呼ばれるこのシステムは、2つの重要な部品から構成されています。

(i)100種類のタスクをカバーする大規模なデモデータセット
(ii)言語またはビデオを使ったタスク指示に条件付けされたニューラルネットワークポリシー

その結果、これまでに見たことのない物体のペアを操作する事を必要とするタスクを含む、少なくとも24の新しいタスクを実行することができるようになりました。また、本ポリシーの学習に使用したロボットデモのデータセットと、事前に計算したタスクのembeddingsを公開することができ、大変うれしく思います。

BC-Zシステムは、ロボットが明示的に訓練されていない新しいタスクの指示を完了させることができるシステムです。これは、ロボットのカメラ画像とともにタスクの説明を入力とし、正しい行動を予測するようにポリシーを訓練することで実現されています。

100のタスクのデータを収集する

全く新しいタスクに汎化することは、トレーニングしたタスクの延長線上にあるタスクに汎化するよりもはるかに困難です。簡単言えば、ロボットの汎化能力を高めたいのであれば、大量の多様なデータで学習させる必要があるのです。

そこで、仮想現実用ヘッドセットを装着したロボットを遠隔操作して、データを収集しました。このデータ収集は、自律走行車に運転を教えるのと同じようなやり方で行います。まず、人間が各タスクの実演を完全に記録します。そして、ロボットが初期ポリシーを学習したら、そのポリシーを厳重に監視しながら展開し、ロボットが間違いを始めたり、動けなくなったりしたら、オペレータが介入して修正を実演してから再開させます。

このように実演と介入を繰り返すことで、複合的なミスを軽減し、パフォーマンスを大幅に向上させることができることが分かっています。私たちの実験では、このデータ収集戦略を用いた場合、人間の実演のみを用いた場合と比較して、2倍の性能向上が確認されています。