RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)

基礎理論

1.RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)まとめ

・話し言葉や書き言葉を使った指示に応じて複雑な環境を案内できるAIの開発は大きな課題
・視覚と言語のナビゲーション(VLN)と呼ばれるこの課題には、空間言語の高度な理解が必要
・RxRはVLNの多言語データセットで英語、ヒンディー語、テルグ語の126,069の案内を含む

2.RxRとは?

以下、ai.googleblog.comより「RxR: A Multilingual Benchmark for Navigation Instruction Following」の意訳です。元記事の投稿は2021年1月21日、Alexander KuさんとPeter Andersonさんによる投稿です。

道案内用というとストリートビュー画像を道案内用AIに活用する話がありましたが、あれは室外でRxRは主に室内の案内のようですね。

ガイド犬っぽいアイキャッチ画像のクレジットはPhoto by Patrick Hendry on Unsplash

機械学習(ML)の中心的な課題は、話し言葉や書き言葉を使った命令に応じて複雑な環境を案内できるエージェントを開発することです。

ロボットを含む現在のエージェントは、複雑な環境を案内できる事も増えてきています。しかし、「貴方から見て右側に閉じている茶色の両開きドアを通り過ぎて、テーブルの端にある椅子の後ろに立つ」など、自然言語で表現された操作目標をまだ理解できていません。

視覚と言語のナビゲーション(VLN:Vision-and-Language Navigation)と呼ばれるこの課題には、空間言語の高度な理解が必要です。

「テーブルの端の椅子の後ろ」の位置を特定するには、テーブルを見つけ、テーブルのどの部分が「端」と見なされるかを特定する必要があります。更に端に最も近い椅子を見つけたり、この椅子の後ろの領域を特定する必要もあります。

人間はこれらの指示に簡単に従うことができますが、これらの課題は現在のMLベースの方法では簡単に解決できず、言語をそれが記述する物理的な世界によりよく接続できるシステムが必要です。

この分野での進歩を促進するために、VLNの新しいデータセットであるRoom-Across-Room(RxR)を紹介できることをうれしく思います。

論文「Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding」で説明されているRxRは、VLN分野の初の多言語データセットであり、英語、ヒンディー語、テルグ語の3つの類型的に多様な言語で人間が注釈を付けた126,069の案内命令が含まれています。

各命令は、Matterport3Dデータセットから得た屋内環境が入力されたフォトリアリスティックシミュレーターを通る道筋を説明します。この中には、家、オフィス、公共の建物の3D構造が含まれます。VLNを使った進歩の加速を追跡するために、RxRチャレンジも発表します。これは、機械学習コミュニティがRxRの指示に沿う事ができる独自のエージェントをトレーニングおよび評価する事を奨励するコンテストです。

Language Instruction
en-US Starting next to the long dining room table, turn so the table is to your right. Walk towards the glass double doors. When you reach the mat before the doors, turn immediately left and walk down the stairs. When you reach the bottom of the stairs, walk through the open doors to your left and continue through the art exhibit with the tub to your right hand side. Down the length of the table until you reach the small step at the end of the room before you reach the tub and stop.
(長いダイニングテーブルの隣から出発し、テーブルが右になるように曲がります。ガラスの両開きドアに向かって歩きます。ドア前のマットに着いたら、すぐに左に曲がって階段を下ります。階段の一番下に着いたら、左側の開いたドアを通り抜け、右側に美術品の展示と浴槽を見ながら歩き続けます。部屋の端にある小さな階段に到達するまで、テーブルの長さ分だけ下り、浴槽に到達する前に停止します。)
hi-IN अभी हमारे बायीं ओर एक बड़ा मेज़ है कुछ कुर्सियाँ हैं और कुछ दीपक मेज़ के ऊपर रखे हैं। उलटी दिशा में घूम जाएँ और सिधा चलें। अभी हमारे दायीं ओर एक गोल मेज़ है वहां से सीधा बढ़ें और सामने एक शीशे का बंद दरवाज़ा है उससे पहले बायीं ओर एक सीढ़ी है उससे निचे उतरें। निचे उतरने के बाद दायीं ओर मुड़े और एक भूरे रंग के दरवाज़े से अंदर प्रवेश करें और सीधा चलें। अभी हमारे दायीं ओर एक बड़ा मेज़ है और दो कुर्सियां राखी हैं सीधा आगे बढ़ें। हमारे सामने एक पानी का कल है और सामने तीन कुर्सियां दिवार के पास रखी हैं यहीं पर ठहर जाएँ।
te-IN ఉన్న చోటు నుండి వెనకకు తిరిగి, నేరుగా వెళ్తే, మీ ముందర ఒక బల్ల ఉంటుంది. దాన్ని దాటుకొని ఎడమవైపుకి తిరిగితే, మీ ముందర మెట్లు ఉంటాయి. వాటిని పూర్తిగా దిగండి. ఇప్పుడు మీ ముందర రెండు తెరిచిన ద్వారాలు ఉంటాయి. ఎడమవైపు ఉన్న ద్వారం గుండా బయటకు వెళ్ళి, నేరుగా నడవండి. ఇప్పుడు మీ కుడివైపున పొడవైన బల్ల ఉంటుంది. దాన్ని దాటుకొని ముందరే ఉన్న మెట్ల వద్దకు వెళ్ళి ఆగండి.

RxRデータセットからの英語、ヒンディー語、テルグ語のナビゲーション指示の例。 各ナビゲーション命令は同じ道筋を記述しています。

ポーズトレース
RxRには、案内指示と道筋に加えて、ポーズトレース(pose trace)と呼ばれる新しいより詳細なマルチモーダル注釈も含まれています。ローカライズナラティブ(Localized Narratives)データセットで加わったマウスの動きに触発されたポーズトレースは、豊富な3D設定で、言語、視覚、動きの間に密な基盤を提供します。

案内指示を生成するために、案内用注釈を付与するガイド作業者に、周囲に見えるものを説明しながら、シミュレーター内の道筋に沿って案内するように依頼します。ポーズトレースは、注釈作業者が道筋に沿って見る全てに関する記録であり、案内と説明文を時間軸で合うように調整されます。

次に、これらの道筋は、ガイドの音声を聞いて目的のパスをたどることを任務とするフォロワー注釈作業者のポーズトレースとペアになり、案内命令の品質を検証します。ポーズトレースは、目印となるランドマークの選択と視覚的な顕著性(Visual salience)を持つ概念を暗黙的に補足します。「案内命令生成タスク(ガイドの場合)」および「案内命令フォロータスク(フォロワーの場合)」を解決する実況説明になります。


RxRデータセットの英語案内指示の命令の例
指示テキスト(右)の単語は、環境内を移動する際に道筋を説明するガイドの動きと視覚的知覚を示すポーズトレース(左)に合わせて色分けされています。

 


同じRxRの事例で、案内命令の単語が道筋に沿って360°の画像に配置されています。ガイド注釈作業者が観察した風景の一部分が強調表示されます。注釈作業者によって無視された風景の一部はフェードします。赤と黄色のボックスは、テキストによる指示と注釈作業者の視覚的な手がかりとの間の密接な関係のいくつかを強調しています。赤い十字は、注釈作業者が移動した次の方向を示します。

 

3.RxR:多言語の案内指示に対応する能力を測るベンチマーク(1/2)関連リンク

1)ai.googleblog.com
RxR: A Multilingual Benchmark for Navigation Instruction Following

2)www.aclweb.org
Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding

3)ai.google.com
Room-Across-Room (RxR)

4)github.com
google-research / pangea

タイトルとURLをコピーしました