Pathdreamer：馴染のない建物内で何処に何がありそうか予測するAI(1/2)

１．Pathdreamer：馴染のない建物内で何処に何がありそうか予測するAI(1/2)まとめ

・人はなじみのない建物内でも視覚的な手がかりを利用して効率的に移動できる
・この機能をAIで実現するためには「視覚的な世界モデル」の実装が必要となる
・Pathdreamerは見た事のない建物内領域を高解像度で予測できる世界モデル

２．Pathdreamerとは？

以下、ai.googleblog.comより「Pathdreamer: A World Model for Indoor Navigation」の意訳です。元記事の投稿は2021年9月22日、Jing Yu KohさんとPeter Andersonさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Andrew Teoh on Unsplash

人がなじみのない建物内を目的地に向かって移動するとき、彼らは多くの視覚的、空間的、意味的な手がかりを利用して、効率的に目標を達成します。

たとえば、なじみのない家でも、食事が行われるダイニングエリアを見れば、キッチンや居間や客間などの可能性のある場所、したがって一般的な家庭用品がある事が予想される場所について知的に予測を行うことができます。

ロボットエージェントにとって、新しい建物で意味的な手がかりと統計的な規則性を利用することは困難です。典型的なアプローチは、モデルフリーの強化学習を介して、これらの手がかりが何であるか、およびナビゲーションタスクにそれらを使用する方法を直接暗黙的に学習することです。

ただし、この方法でナビゲーションを学習するのは、費用がかかり、テストが難しく、最初から学習し直さずに別のエージェントで再利用するのが困難です。

なじみのない建物内を移動する際、人間は、視覚的、空間的、意味的な手がかりを利用して、角を曲がった場所が何かを予測することができます。この機能を計算機モデルで実現するためには、「視覚的な世界モデル(visual world model)」が必要です。

ロボットナビゲーションおよび計画エージェントの魅力的な代替手段は、世界モデルを使用して、周囲に関する豊富で意味のある情報をカプセル化することです。

これにより、エージェントは、環境内の実行可能な行動の結果を予測する事ができます。このようなモデルは、ロボット工学、シミュレーション、強化学習などの分野で広く関心を持たれており、シミュレートされた2Dカーレースタスクの実行や、Atariのビデオゲームで人間レベルのパフォーマンスの達成など、印象的な結果が得られています。ただし、ゲーム環境は、実際の環境の複雑さと多様性に比べると、依然として比較的単純です。

ICCV 2021で公開された論文「Pathdreamer: A World Model for Indoor Navigation」では限られたシード観測(seed observations)と提案されたナビゲーション軌道(proposed navigation trajectory)のみを使用して、エージェントが見た事のない建物内領域に対して高解像度360度視覚観測を生成する世界モデルを提示します。

以下のビデオに示すように、Pathdreamerモデルは、単一の視点から没入型シーン(immersive scene)を合成し、エージェントが新しい視点に移動した場合、または角を曲がったところなど、完全に見えない領域に移動した場合に何が見えるかを予測できます。

ビデオ編集や予想写真などの潜在的なアプリケーションを超えて、このタスクを解決することは、人間の環境に関する知識を体系化して、現実の世界をナビゲートするロボットエージェントに利益をもたらすことが約束されます。

たとえば、なじみのない建物内の特定の部屋や物体を見つけることを任務とするロボットは、世界モデルを使用してシミュレーションを実行し、物理的にどこかを検索する前に、可能性のある場所を特定できます。Pathdreamerなどの世界モデルを使用して、モデル内のエージェントをトレーニングすることにより、エージェントのトレーニングデータの量を増やすこともできます。

Pathdreamerは、単一の観測データ(RGB、深度、およびセグメンテーション)と提案されたナビゲーション軌道を入力として提供し、曲がり角を含む元の場所から最大6～7メートル離れた場所の高解像度の360度の観測を合成します。その他の結果については、www.youtube.comを参照してください。

Pathdreamerはどのように機能しますか？

Pathdreamerは、1つ以上の前の観測シーケンスを入力として受け取り、将来の場所への軌跡予測を生成します。これは、生成された観測と対話するエージェントによって事前にまたは繰り返し提供される場合があります。

入力と予測はどちらも、RGB、セマンティックセグメンテーション、深度画像で構成されています。内部的には、Pathdreamerは三次元点群(3D point cloud)を使用して環境内の表面形状を表現します。点群内のポイントは、RGBカラー値と、壁、椅子、テーブルなどのセマンティックセグメンテーションクラスの両方でラベル付けされます。

新しい場所での視覚的観測を予測するために、最初に点群が新しい場所で2Dに再投影され、「ガイダンス」画像が提供されます。

この画像から、Pathdreamerはリアルな高解像度RGB、セマンティックセグメンテーションおよび深度を生成します。モデルが「移動」すると、新しい観測値(実際の観測値または予測された観測値)が点群に蓄積されます。記憶用途に点群を使用する利点の1つは、時間的な一貫性です。再訪した領域は、以前の観測と一貫した方法でレンダリングされます。