CaP：自分で自分の制御プログラムを書くロボットの実現にむけて(2/2)

１．CaP：自分で自分の制御プログラムを書くロボットの実現に向けて(2/2)まとめ

・大きなモデルはより良い性能を発揮し階層的なコードが生産性を最も改善する
・コード執筆モデルはロボットの形状が異なっても実行可能なコードを生成可能
・生成されたコードの意図しない動作に対する安全性の向上は今後の課題となる

２．Code as Policiesの制限

以下、ai.googleblog.comより「Robots That Write Their Own Code」の意訳です。元記事は2022年11月2日、Jacky LiangさんとAndy Zengさんによる投稿です。

アイキャッチ画像はstable diffusionの1.5版の生成

コード生成問題で遭遇する汎化の種類を整理する事で、階層的なコード生成がどのように汎化を改善するのか研究することができます。

例えば、「系統性(Systematicity)」は既知の部品を組み替えて新しい実行順を形成する能力を評価します。

「置換性(Substitutivity)」は同じ意味を持つコード断片を扱う際の堅牢性を評価します。

「生産性(Productivity)」はサンプルコードに見られるものより長いポリシーコードを書く能力を評価します。(例えば、新しい関数の定義と入れ子を必要とするような長い目線で実施する必要があるタスクの場合)

本論文では、ロボット関連のコード生成問題群に対して言語モデルを評価するための新しいオープンソースのベンチマークを提示します。このベンチマークを用いることで、一般に、大きなモデルはほとんどの指標でより良い性能を発揮し、階層的なコード生成は「生産性」の汎化を最も改善することがわかりました。

RoboCodeGen ベンチマークにおける汎化タイプ別のパフォーマンス。大きなモデル(Davinci)は小さなモデル(Cushman)よりも性能が高く、階層的なコード生成が最も生産性を向上させています。

また、コードライティングモデルが「異種形態間横断的な計画(cross-embodied plans)」を表現できる可能性にも期待しています。

これはロボットの形が異なっていても、利用可能なAPI(知覚行動空間)に応じて同じタスクを異なる方法で実行可能にする事で、あらゆるロボティクス基盤モデルにとって重要な観点です。

言語モデルのコード生成は、利用可能なAPI(知覚行動空間を定義するもの)によって、同じタスクを異なる方法で完了する「クロスエンボディメント能力(cross-embodiment capabilities、ロボットの形状が異なっていても同じタスクを実行する能力)」を発揮します。

制限事項

現在のCode as policiesは以下の範囲で制限されます。

(i)知覚APIが記述できる内容(例えば、軌道が「でこぼこ」か「C型の形状」かを記述できる視覚言語モデルは現在までにほとんどありません)
(ii)利用可能な制御命令

プロンプトの文字数制限にとらわれずに調整できるのは、ほんの一握りの名前のついたプリミティブパラメータだけです。

また、このアプローチは、与えられた指示がすべて実行可能であることを前提としており、生成されたコードが有用であるかどうかを事前に判断することはできません。

また、CaPは、言語モデルのプロンプトに提供される数少ない事例よりも、かなり複雑な命令や異なる抽象度で動作する命令を解釈するのに苦労しています。例えば、卓上領域では、複雑な3次元構造を構築する事例がないため、CaPsの特定の実体が「ブロックで家を建てる」ようにする事は困難です。

このように、視覚言語モデルを拡張して低レベルのロボット動作(例えば、軌道)を記述したり、CaPsと探索アルゴリズムを組み合わせて自律的に制御命令のセットを追加するなど、将来の研究課題を指摘するものです。

オープンソースの公開

私たちの実験を再現するために必要なコードと、インタラクティブな模擬ロボットデモをプロジェクトのウェブサイトcode-as-policies.github.ioで公開しています。また、動画と生成されたコードを含む追加の実世界デモも公開しています。

まとめ

Code as policiesは，ロボットが自らの行動を修正し，それに応じて機能を拡張できるようにするための一歩です。しかし、合成されたプログラムは、(実行時に手動でチェックしない限り)物理的なハードウェアと意図しない動作をする可能性があるため、この柔軟性は潜在的なリスクも高めることになります。

システムがアクセスできる制御命令を制限する安全性チェックを組み込む事で、これらのリスクを軽減することができますが、既知の命令の新たな組み合わせが同様に安全であることを保証するためには、さらなる作業が必要です。

私達は、より汎用的なロボットに向けた潜在的にポジティブな影響を最大化しつつ、これらのリスクを最小化する方法について幅広い議論を歓迎します。

謝辞

この研究は、Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, Andy Zengによって行われたものです。Vikas Sindhwani, Vincent Vanhouckeには執筆の際に有益なフィードバックをいただき、Chad Boodooには運用とハードウェアのサポートをしていただきました。査読前論文はarXivで公開されています。