Interactive Language:ロボットとリアルタイムに会話で指示を行う(2/2)

１．Interactive Language:ロボットとリアルタイムに会話で指示を行う(2/2)まとめ

・注釈処理作業を工夫する事により大規模なLanguage-Tableデータセットを収集
・Language-Tableデータセットは模倣学習ベンチマークと共にオープンソース化
・ロボット制御に限らずより広いML範囲における他の問題の研究のために有用

２．Language-Tableとは？

以下、ai.googleblog.comより「Talking to Robots in Real Time」の意訳です。元記事は2022年12月1日、Corey LynchさんとAyzaan Wahidさんによる投稿です。

アイキャッチ画像はstable diffusionの生成

オープンソース公開：Language-Tableデータセットとベンチマーク

前述の注釈処理により、ロボットが言語コマンドを実行した440,000回以上の実デモンストレーションと180,000回のシミュレーション、およびデモ中にロボットが取った一連の動作からなるLanguage-Tableデータセットを収集することが出来ました。

これは、この種の言語条件付きロボットデモのデータセットとしては、桁外れに大きなものです。Language-Tableには模倣学習ベンチマークが付属しており、これを用いてモデル選択を行うことで、新しい命令追従アーキテクチャやアプローチの評価に利用することができます。

Dataset	# Trajectories (k)	# Unique (k)	Physical Actions	Real	Available
Episodic Demonstrations
BC-Z	25	0.1	✓	✓	✓
SayCan	68	0.5	✓	✓	❌
Playhouse	1,097	779	❌	❌	❌
Hindsight Language Labeling
BLOCKS	30	n/a	❌	❌	✓
LangLFP	10	n/a	✓	❌	❌
LOREL	6	1.7	✓	✓	✓
CALVIN	20	0.4	✓	❌	✓
Language-Table(real+sim)	623(442+181)	206(127+79)	✓	✓	✓

Language-Tableを既存のロボットデータセットと比較し、シミュレーション(赤)と実ロボット(青)のデータの割合、収集した軌道の数、言語記述可能なユニークなタスクの数などを明らかにしました。

学習したリアルタイム言語動作の例

ロボットが従うことのできる短期目線で実行可能な指示の例(87,000以上の全セットからランダムに抽出)

Short-Horizon Instruction	Success
(87,000 more…)	…
push the blue triangle to the top left corner	80.00%
separate the red star and red circle	100.00%
nudge the yellow heart a bit right	80.00%
place the red star above the blue cube	90.00%
point your arm at the blue triangle	100.00%
push the group of blocks left a bit	100.00%
Average over 87k, CI 95%	93.5% +- 3.42%

87,000の自然言語による指示に対する個々の対話型言語ポリシーの平均成功率に対する95%信頼区間(CI:Confidence interval)。

私達は、ロボットが言葉による指示にリアルタイムに従うことができるとき、興味深い新しい能力が生じることを見出しました。私達は、ユーザーが自然言語のみを使用して、複雑な長期目線で順序だてる事が必要なタスクのためにロボットを歩かせ、実行に何分もかかる正確な協調制御を必要とする目標(例えば、「緑の目のブロックを並べて笑顔を作る」、「すべてのブロックを縦列に置く」)を解決できることを示しています。

ロボットは使用語彙に制限を設けない命令に従えるように訓練されているため、前もって列挙するのが難しいような多様な言語による修正指示(例えば「赤い星型を少し右になでて」など)に反応することができることがわかります。

リアルタイムに言語を使ったガイダンスにより達成された長期目標の例

最後に、リアルタイムに言葉を使用する事によって、ロボットのデータ収集の新しいモードが可能になることがわかります。例えば、一人の人間が話し言葉だけで4台のロボットを同時に制御することができます。これは、将来的にロボットのデータ収集の規模を拡大する可能性があり、各ロボットに人間が注意を払う必要はありません。

一人のオペレーターが声を使って複数のロボットを同時に制御できます

結論

現在のところ、定められた物体がセットされている卓上に限定されていますが、Interactive Languageは、大規模な模倣学習(imitation learning)が、利用者から与えられる自由形式の指示に従ってリアルタイムに対話的に行動するロボットを実現できることを示す最初の証拠です。

私達は、物理的なロボットのリアルタイム言語制御の進歩に拍車をかけるため、この種のものとしては最大の言語条件付き実世界ロボット実証データセットであり、関連するシミュレーションベンチマークであるLanguage-Tableをオープンソースとして公開します。

このデータセットはロボット制御に限らず、言語や行動を条件とした映像予測、映像を条件にしたロボット用の言語モデリング、あるいは、より広いML文脈における他の興味深い活発な問題の研究のための興味深い出発点を提供することができると考えています。詳しくは論文とGitHubのページをご覧ください。

謝辞

本研究を支援していただいた皆様に感謝いたします。以下の皆さんが含まれます。
ロボットの遠隔操作テレオペレーター：Alex Luong, Armando Reyes, Elio Prado, Eric Tran, Gavin Gonzalez, Jodexty Therlonge, Joel Magpantay, Rochelle Dela Cruz, Samuel Wan, Sarah Nguyen, Scott Lehrer, Norine Rosales, Tran Pham, Kyle Gajadhar, Reece Mungal, 及び Nikauleene Andrews;。ロボットハードウェア支援と遠隔操作調整役:Sean Snyder, Spencer Goodrich, Cameron Burns, Jorge Aldaco, Jonathan Vela。データ運用とインフラストラクチャ：Muqthar Mohammad, Mitta Kumar, Arnab Bose, Wayne Gramlich。そしてデータセットの言語ラベリングに協力してくれた多くの方々。

また、Pierre Sermanet, Debidatta Dwibedi, Michael Ryoo, Brian Ichter そして Vincent Vanhouckeの貴重なアドバイスとサポートに感謝します。