1.VLMaps:ロボットナビゲーションのための視覚-言語マップ(2/2)まとめ
・VLMapsは、自然言語による記述で目印の地図座標を返すことが可能なためCode as Policiesで使う事ができる
・追加のトレーニングや微調整なしに評価したところ比較対象手法を最大17%も上回ることがわかった
・VLMapsを拡張して動き回る人間を扱えるよにする事は将来の研究にとって興味深い方向性と考えて居る
2.VLMapsの利用法
以下、ai.googleblog.comより「Visual language maps for robot navigation」の意訳です。
アイキャッチ画像はロボットナビゲーションのイメージをchatGPT先生に伝えて作って貰ったプロンプトを私が修正してカスタムStable Diffusion先生に作って貰ったイラスト
# move first to the left side of the counter, then move between the sink and the oven, then move back and forth to the sofa and the table twice. robot.move_to_left('counter') robot.move_in_between('sink', 'oven') pos1 = robot.get_pos('sofa') pos2 = robot.get_pos('table') for i in range(2): robot.move_to(pos1) robot.move_to(pos2) # move 2 meters north of the laptop, then move 3 meters rightward. robot.move_north('laptop') robot.face('laptop') robot.turn(180) robot.move_forward(2) robot.turn(90) robot.move_forward(3)
VLMapsは、自然言語による記述で目印の地図座標を返すことができます。これをCode as PoliciesのプリミティブAPI関数呼び出しとしてラップして、連続する複数の目的を持つ長期目線が必要な運行を行う事ができます。
結果
私達は、HabitatとMatterport3Dにおいて、追加のトレーニングや微調整をすることなく、困難なゼロショット設定で物体に関する目標と位置に関する目標のナビゲーションタスクでVLMapsを評価しました。ロボットは、自然言語で指定された4つのサブゴールに対して順次運行するよう要求されます。その結果、VLMapsは、CoWやLM-Navを含む強力なベースラインを最大17%も上回ることがわかりました。
Tasks | Number of subgoals in a row | Independent | |||
1 | 2 | 3 | 4 | subgoals | |
LM-Nav | 26 | 4 | 1 | 1 | 26 |
CoW | 42 | 15 | 7 | 3 | 36 |
CLIP MAP | 33 | 8 | 2 | 0 | 30 |
VLMaps (ours) | 59 | 34 | 22 | 15 | 59 |
GT Map | 91 | 78 | 71 | 67 | 85 |
VLMapsアプローチは、多数の物体に関する操作において、他の語彙に制限のない比較対象手法よりも優れた性能を発揮し(成功率[%])、特に複数の小目標を持つ長期目線が必要なタスクにおいて優れています。
VLMapsの主な利点は、「ソファとテレビの間に入る」「椅子の右側に3メートル移動する」といった空間的な目標を理解できることです。長期目線が必要な空間目標ナビゲーションの実験では、最大で29%の向上が見られました。
異なる言語クエリで活性化されるマップの領域についてより深く理解するために、物体タイプ「椅子」に対するヒートマップを可視化します。
VLMapsの改良された視覚と言語に基づく能力は、競合するアプローチと比較して誤検出が著しく少なく、言語記述を使用して目印へゼロショットで運行することを可能にします。
語彙に制限のない障害物マップ
また、同じ環境の1つのVLMapを使用して、経路計画用に語彙に制限のない障害物マップを構築することができます。
これは、ロボットが通過できる、またはできない目印カテゴリのリスト(「テーブル」、「椅子」、「壁」など)に対する二値閾値検出マップの和を取ることによって行われます。
これは、異なる形態を持つロボットが同じ環境内で異なる動きをする可能性があるため、有用です。例えば、「テーブル」は大型の移動ロボットにとっては障害物ですが、ドローンにとっては横断可能な場合があります。VLMapを使用して複数のロボット固有の障害物マップを作成すると、各ロボットに対して単一の共有障害物マップを使用する場合と比較して、ナビゲーション効率が最大4%向上することを確認しました。(経路長で重み付けしたタスク成功率で測定)。詳しくは論文をご覧ください。
AI2THORのシミュレーション環境における移動ロボット(LoCoBot)とドローンによる実験
左:環境のトップダウンビュー
中:運行中のエージェントの観察結果
右:異なる形状を持つロボットから生成された障害物マップと対応する経路計画
結論
VLMapsは、ロボットが運行に使用できる空間地図表現に、事前に訓練された視覚-言語情報を適用するための最初のステップです。シミュレーションと実環境での実験により、VLMapsは、言語使用型ロボットが、
(i)自然言語の記述から目印(また目印と相対する空間位置)を索引化し、
(ii)経路計画のための語彙に制限のない障害物マップを生成できることが示されました。
VLMapsを拡張して、よりダイナミックな環境(例えば、動く人)を扱うことは、将来の研究にとって興味深い方向性です。
オープンソースリリース
私たちは、実験を再現するために必要なコードと、インタラクティブなシミュレーションロボットのデモをプロジェクトのウェブサイトで公開し、さらにビデオやシミュレーションでエージェントをベンチマークするコードも掲載しています。
謝辞
本研究の共著者に感謝します: Chenguang HuangとWolfram Burgardに感謝します。
3.VLMaps:ロボットナビゲーションのための視覚-言語マップ(2/2)関連リンク
1)ai.googleblog.com
Visual language maps for robot navigation
2)arxiv.org
Visual Language Maps for Robot Navigation
3)vlmaps.github.io
Visual Language Maps for Robot Navigation