2022年のGoogleのAI研究の成果と今後の展望~ロボット編~(2/2)

AI関連その他

1.2022年のGoogleのAI研究の成果と今後の展望~ロボット編~(2/2)まとめ

・大規模言語モデルは汎化と性能がデータ量に応じて向上するのでロボットも同じ事ができないか考えた
・ロボットもデータの規模と多様性を増やすと新しいタスク、環境、物体に対するモデルの汎化能力が向上した
・人の動きから学習、シミュレーションから学習、教師なしで学習など様々な形で学習データの規模向上が出来た

2.ロボット学習を大規模データ問題として考える

以下、ai.googleblog.comより「Google Research, 2022 & beyond: Robotics」の意訳です。元記事は2023年2月14日、Kendra ByrneさんとJie Tanさんによる投稿です。

アイキャッチ画像はstable diffusionのカスタムモデルによる生成で下町のロボット工場

ロボット学習を規模拡大可能なデータ問題に転換

大規模言語モデルとマルチモーダルモデルは、場面内で何が起こっているか、ロボットが何をすることが期待されているかなど、ロボットが動作している状況を理解するのに役立ちます。しかし、ロボットが物理的な世界でタスクを完了するためには、物を拾ったり、正確な場所に置いたりするような。低レベル物理的スキルも必要です。

私たちは、このような物理的なスキルを、毎日何百回となく当たり前のように実行していますが、ロボットにとっては大きな課題となっています。例えば、物体を拾うためには、ロボットが環境を認識・理解し、持ち手と物体の空間的関係や接触時の力学を推論し、高自由度のアームを正確に作動させ、物体を壊さずに安定して掴むために適切な力を発揮する必要があります。

このような低レベルスキルを学習することの難しさは、モラベックのパラドックス(Moravec’s paradox)として知られています。すなわち、高度な推論を行う際にはほとんど計算資源は必要ありませんが、感覚運動や知覚スキルには膨大な計算資源が必要になるのです。

大規模言語モデル(LLM:Large Language Models)の最近の成功は大規模なTransformerベースのモデルの汎化と性能がデータ量に応じて向上することを示ししています。この事実に触発され、私達はデータ駆動型のアプローチを取り、低レベルの物理的スキルを学習する問題をスケーラブルなデータ問題に転換しているのです。

Robotics Transformer-1(RT-1)では、Everyday Robotsの13台のロボット群を使って、700以上のタスクをカバーする13万エピソードからなる大規模な実世界のロボティクスデータセットでロボット操作ポリシーを学習し、ロボティクスでも同じ傾向が確認できました。

すなわち、データの規模と多様性を増やすと新しいタスク、環境、物体に対するモデルの汎化能力が向上するのです。


PaLM-SayCan-RT1が実際のキッチンで長期目線が必要なタスクを実行した例

言語モデルやRT-1のようなロボット学習アプローチの多くは、インターネット規模のデータを理解するためにTransformersを使用しています。LLMとは異なり、ロボット工学では、常に変化する環境のマルチモーダルな表現と、限られた計算量に挑戦しています。

2020年、私達はTransformersの計算効率を高めるアプローチとしてPerformersを発表しましたが、これはロボティクス以外にも多くのアプリケーションに影響を与えるものでした。

Performer-MPCでは、これを応用し「模倣学習(imitation learning)の利点」と「モデル予測制御(MPC:Model Predictive Control)を用いてシステム制約を堅実に扱う事」を組み合わせた新しいクラスの暗黙的制御ポリシー(new class of implicit control policies )を導入しました。

その結果、標準的なMPCポリシーと比較して、ロボットの目標到達率が40%以上向上し、人間の周辺を移動する際の社会的指標も65%以上向上することが示されました。Performer-MPCは、8.3百万のパラメータモデルに対して8msの応答速度を提供し、Transformersのロボット搭載を実用的にしました。


通常のMPC、明示的ポリシー、Performer-MPCを用いた高制約空間での案内ロボットの操縦

昨年、私たちのチームは、データ駆動型アプローチが、多様な環境のさまざまなロボットプラットフォームで、幅広いタスクを学習するために汎用的に適用可能であることを明らかにしました。その中にはロボットアーム操作、道案内、歩行力卓球などが含まれます。このことは、低レベルのロボットスキルを学習するための明確な道筋を示しています。

すなわち規模拡大してデータ収集する事です。

インターネット上に溢れる動画やテキストデータとは異なり、ロボットデータは極めて希少で入手が困難です。実世界のインタラクションを代表する豊富なデータセットを収集し、効率的に利用するアプローチを見つけることが、データ駆動アプローチの鍵となります。

シミュレーションは、高速で安全、かつ並列化しやすい選択肢ですが、シミュレーションで完全な環境、特に物理作用を伴う事柄や、人間とロボットのヤリトリを再現するのは困難なことです。

i-Sim2Realでは、シミュレーションと現実世界のギャップを解決し、人間の行動の単純なモデルから開始して、シミュレーションでの訓練と現実世界での展開を交互に繰り返すことによって、人間の相手と卓球ができるようになるアプローチを示しました。各反復において、人間の行動モデルとポリシーの両方が改良されます。


人間の相手と卓球をすることを学ぶ

シミュレーションは有効ですが、シミュレーションの方針を微調整したり、新しい環境で既存のポリシーを適応させたりするためには、現実世界でのデータ収集が不可欠です。

学習中のロボットは故障しやすく、自身や周囲にダメージを与える可能性があります。特に、世界との関わり方を模索している学習の初期段階では、そのようなことが起こり得ます。

ロボットが学習している最中でも安全に学習データを収集し、ロボットが自律的に故障から回復することを可能にする必要があります。「Learning Locomotion Skills Safely in the Real World」では、目的のタスクを実行するために最適化された「学習者ポリシー」と、ロボットが安全でない状態から防ぐ「安全回復ポリシー」を切り替える安全RLフレームワークを紹介しました。

また、「Legged Robots that Keep on Learning」では、転倒しても自力で立ち上がることができるようになるなど、ロボットが失敗から回復できるようにリセットポリシーを学習しました。


自動リセットポリシーにより、ロボットは人間の教師なしに生涯学習を続けることができます。

ロボットのデータは少ないですが、人がさまざまな作業をする映像は豊富にあります。

もちろん、ロボットの体は人間の体のようには作られていません。そのため、ロボットが人の動きから学習するという考え方は「異なる身体(embodiments)間で学習を転移する」という問題を提起します。

そこで私たちは「Robot See, Robot Do」というコンセプトのもと、人の動作を見て新しい作業を学習する「交差実施形態逆強化学習(Cross-Embodiment Inverse Reinforcement Learning)」を開発しました。人が行うような作業を正確に再現するのではなく、高レベルの作業目的を学習し、その知識を報酬関数の形で要約するのです。このような実証学習を行うことで、ロボットがインターネットで簡単に手に入る動画を見て技術を習得することができるようになります。

また、学習アルゴリズムのデータ効率化も進めており、データ収集の規模に依存しないようにしています。予測情報(predictive information)、事前敵対的運動(adversarial motion priors)、ガイドポリシーなどの事前情報を取り入れることで、RLアプローチの効率を向上させました。

さらに、新しい構造化力学系アーキテクチャを利用し、新しい解決法によってサポートされる軌道最適化とRLを組み合わせることで、さらなる改善を実現しました。

これらの事前情報は、探索の課題を軽減し、優れた正則化剤として機能し、必要なデータ量を大幅に削減することができました。

さらに、私たちのチームは、よりデータ効率の良い模倣学習に多大な投資を行ってきました。私達は、シンプルな模倣学習アプローチであるBC-Zを用いることで、訓練中に見られなかった新しいタスクへのゼロショット汎化が可能になることを示しました。

また、反復模倣学習(iterative imitation learning )アルゴリズム「GoalsEye」を紹介しました。これは高速・高精度な卓球ゲームにおける「実技からの学習(Learning from Play)」と「目標条件付き行動クローニング」を組み合わせています。

理論面では、模倣学習のサンプル複雑性を特徴付けるための力学系の安定性について研究しました。また、より小さなデータセットからオフラインで学習するための条件付けとして、実証データ内の失敗と回復を捉えることの役割について研究しました。

終わりに

AIの分野全体における大規模モデルの進歩は、ロボットの学習能力の飛躍に拍車をかけています。この1年、私たちは、LLMで捉えられた文脈の感覚や出来事の順序が、ロボット工学の長期目線が必要な計画を解決し、人がロボットに接し、タスクを与えることを容易にすることを目の当たりにしました。

また、ロボットの学習にtransformerモデルアーキテクチャを適用することで、堅牢で一般化可能なロボットの動作を学習する規模拡大への道筋を見ることができました。

私たちは、「Scanned Objects: A Dataset of 3D-Scanned Common Household Items」のようなデータセットのオープンソース化を続けています。また、RT-1のようなモデルも、より広い研究コミュニティーに参加する精神で、オープンソース化しています。来年は、これらの研究テーマを基に、役に立つロボットを実現することを期待しています。

謝辞

私たちの研究を支えてくださったすべての方に感謝いたします。これには、Robotics at Googleチーム全体と、Everyday RobotsとGoogle Researchの協力者が含まれます。また、UC Berkeley、Stanford、Gatech、University of Washington、MIT、CMU、U Pennなど、外部の協力者にも感謝したいです。

3.2022年のGoogleのAI研究の成果と今後の展望~ロボット編~(2/2)関連リンク

1)ai.googleblog.com
Google Research, 2022 & beyond: Robotics

2)innermonologue.github.io
Inner Monologue:Embodied Reasoning through Planning with Language Models

3)sites.google.com
Legged Robots that Keep on Learning:Fine-Tuning Locomotion Policies in the Real World

4)sites.google.com
GoalsEye: Learning High Speed Precision Table Tennis on a Physical Robot

タイトルとURLをコピーしました