RT-1:現実世界の大規模データを取り扱い可能なロボット操作用Transformer(2/2)

１．RT-1:現実世界の大規模データを取り扱い可能なロボット操作用Transformer(2/2)まとめ

・RT-1は他のロボットの経験を観察する事で新しいスキルを身につける事が可能
・SayCanとRT-1を組み合わせる事によって初見のキッチンでも活躍できる
・今後の方向性としてロボットのスキル数をより速く拡張することを考えている

２．RT-1の性能

以下、ai.googleblog.comより「RT-1: Robotics Transformer for Real-World Control at Scale」の意訳です。元記事は2022年12月13日、Keerthana GopalakrishnanさんとKanishka Raoさんによる投稿です。

アイキャッチ画像はstable diffusion の生成

異なる種類のデータソースを取り込む

RT-1をさらに発展させるために、他のロボットから収集したデータで学習させて以下を検証します。

(1)新しいデータソースが提示された場合でも元のタスクに対するモデルの性能が維持されますか？
(2)新しい異なったデータでモデルの汎化が促進されますか？

両者とも汎用的なロボット学習モデルにとって望ましいことです。

具体的には、QT-Optプロジェクトにおいて、ベース固定のKukaアームで自律的に収集された無差別把持の20.9万エピソードを使用します。収集したデータは、EDRで収集したオリジナルデータセットの行動仕様と境界に合わせて変換し、すべてのエピソードに「何かを拾う(pick anything)」というタスク命令をラベル付けします。(Kukaデータセットには物体トラベルがありません)

その後、KukaのデータとEDRのデータを1:2の割合で訓練バッチごとに混合し、元のEDRスキルへの退行を制御します。

複数のロボットからデータが収集された場合のトレーニング方法

その結果、RT-1は他のロボットの経験を観察する事で、新しいスキルを身につけることができることがわかりました。

特に、EDRのデータだけで学習した場合は22%だった精度が、Kukaの小物拾得(bin-picking)データと、RT-1のデータ収集の中心であった既存のEDRロボットクラスルームデータの両方で学習すると、約2倍の39%に跳ね上がることが分かりました。

一方、Kukaの小物拾得データだけでRT-1を学習させ、EDRの小物拾得のデータで評価すると、精度は0%になります。一方、両ロボットのデータを混ぜることで、RT-1はEDRロボットの小物拾得を明示的に実演することなく、Kukaが収集した経験を生かし、Kukaが観測した状態に直面したときのEDRロボットの行動を推論することができるようになりました。このことは、より多くのマルチロボットデータセットを組み合わせて、ロボットの能力を向上させるという、今後の研究の機会を示しています。

Training Data	Classroom Eval	Bin-picking Eval
Kuka bin-picking data + EDR data	90%	39%
EDR only data	92%	22%
Kuka bin-picking only data	0	0

様々な学習データを用いたRT-1の精度評価

長期目線のSayCanタスク

RT-1の高い性能と汎化能力により、SayCanを用いた長期目線が必要な移動操作タスクを実現することができます。SayCanは、言語モデルをロボットのアフォーダンスに基づかせ、小数回のプロンプトを利用して、自然言語で表現された長期目線が必要なタスクを一連の低レベルのスキルに分解することによって機能します。

SayCanタスクは、様々な機能をテストするための理想的な評価設定となります。

長期目線が必要なタスク(Long-horizon task)の成功率はタスクの長さに応じて指数関数的に減少するため、高い操作成功率が重要になります。

移動と操作を行うタスク(Mobile manipulation tasks)では、ロボット本体の移動とロボットアーム操作の切り替えが何度も発生するため、初期ポリシー条件(本体位置など)の変動に対する堅牢性が不可欠です。

また、SayCanの高レベルな命令数は、単体スキルの幅の広がりに応じて、組み合わせ的に増加します。

そこで、SayCan with RT-1と他の2つの比較対象手法(SayCan with GatoとSayCan with BC-Z)を現実世界のキッチンで評価しました。以下、「キッチン2」は「キッチン1」よりもはるかに困難な汎化シーンを構成しています。なお、学習データの収集に使用した模擬キッチンは、「キッチン1」を模したものです。

SayCan with RT-1は、キッチン1において67%の実行成功率を達成し、他の手法と比較して高いパフォーマンスを示しています。新しい未知のキッチン2に汎化する困難さのため、SayCan with GatoとSayCan with BCZは性能が低下しますが、RT-1は目に見えて性能が低下することはありません。

	SayCan tasks in Kitchen1		SayCan tasks in Kitchen2
	Planning	Execution	Planning	Execution
Original Saycan	73	47	–	–
SayCan w/ Gato	87	33	87	0
SayCan w/ BC-Z	87	53	87	13
SayCan w/ RT-1	87	67	87	67

以下の動画は、様々な現実世界のキッチンでPaLM-SayCan-RT1が行った長期目線が必要なタスクの実行例を示したものです。

まとめ

RT-1 Robotics Transformerは、実世界のロボットタスクのためのシンプルで規模拡大可能なアクション生成モデルです。全ての入力と出力をトークン化し、事前に学習したEfficientNetモデルと早期言語融合(early language fusion)、そして圧縮用のトークン学習器を用いています。RT-1は、数百のタスクにおいて高い性能を示し、現実世界の環境において幅広い汎化能力と堅牢性を実現します。

私たちは、この研究の将来の方向性を探る中で、ロボットのスキル数をより速く拡張することを望んでいます。そのため、専門家でなくても、指示に従ってデータ収集を行ったり、モデルにプロンプトを与える事によってロボットを訓練できるような手法を開発したいと考えています。

また、規模拡大可能なAttentionと記憶により、RT-1 Robotics Transformerの反応速度と文脈保持能力を改善することも期待しています。詳しくは、論文、オープンソース化されたRT-1コード、およびプロジェクトのウェブサイトをご覧ください。

この研究の今後の方向性として、専門家でなくてもデータ収集とモデルプロンプトの指示によりロボットを訓練できる方法を開発することで、ロボットスキルの数をより速く拡張することを望んでいます。また、スケーラブルな注意と記憶により、ロボティクス・トランスフォーマーの反応速度と文脈の保持を改善することも期待しています。詳しくは、論文、オープンソース化されたRT-1コード、およびプロジェクトのウェブサイトをご覧ください。

謝辞

この研究は、Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Tomas Jackson, Sally Jesmonth, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Kuang-Huei Lee, Sergey Levine, Yao Lu, Utsav Malla, Deeksha Manjunath, Igor Mordatch, Ofir Nachum, Carolina Parada, Jodilyn Peralta, Emily Perez, Karl Pertsch, Jornell Quiambao, Kanishka Rao, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Kevin Sayed, Jaspiar Singh, Sumedh Sontakke, Austin Stone, Clayton Tan, Huong Tran, Vincent Vanhoucke, Steve Vega, Quan Vuong, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, 及び Brianna Zitkovichとの共同研究でした。