ストリートビュー画像を道案内用AIの研究者に提供(1/3)

１．ストリートビュー画像を道案内用AIの研究者に提供(1/3)まとめ

・前方に進み線路そばの赤い消火栓の後で左折し3ブロック進む、などの指示はAIにとって難しい
・VLN(視覚と言語による案内)と、SDR(特定視点からの空間的記述の解決)が必要になる
・これを実現するエージェントの訓練用にGoogleストリートビュー画像を既存データセットに追加

２．実地言語理解問題とは？

以下、ai.googleblog.comより「Enhancing the Research Community’s Access to Street View Panoramas for Language Grounding Tasks」の意訳です。元記事の投稿は2020年2月25日、Harsh MehtaさんとJason Baldridgeさんによる投稿です。東京のストーリートビューをイメージして選んだアイキャッチ画像のクレジットはPhoto by Jezael Melgoza on Unsplash

自然言語処理とコンピュータービジョンの両方の分野で大きな進歩が続いていますが、研究コミュニティは、視覚的表現で与えられた情報から指示を解釈し、その指示に基づいて適切なアクションを実行可能なロボット等の機械学習エージェントをまだ実現出来ていません。現在のエージェントは、与えられた環境内で指示に従って行動する事を学習できますが、以下のような指示をまだ理解できません。

「前方に進み、線路のそばの赤い消火栓の後で左折します。次に、3ブロック進み、入り口に旗が並んでいる建物の前に行ってください」

これを実現するためには、列車の線路、赤い消火栓、旗の並びなどの言葉による説明を視覚的外観に関連付け、ブロックとは何か、どのようにブロックを3つを数えるのか？などを理解する必要があります。

更にはbyやoverなどの空間構成に基づく単語と物体を関連付けたり、前進や左に曲がるなどの方向を関連付けたり、より多くの事が必要になります。

こういった実地言語理解問題(Grounded language understanding problems)は、機械によって実現される知性を研究する際に優れた実証基盤となります。人間にとっては簡単ですが、現在の機械学習エージェントにとっては難しいものであるからです。

訳注：Grounded languageのGroundedは「接地」と訳されている事も見かけたのですが、「実地」や「現場」の方が妥当な気がしています。要は辞書に載ってないような言葉です。辞書に載る＝他の言葉を使って説明可能と言う事ですが、前述の道案内記述のような『「前方」に「進み」、線路の「そば」の「赤い」～』は、辞書に掲載して個々の概念を更に細かく説明するような言葉でありません。なので、「実地で使われる言葉で改めて概念として説明するようなものではない言葉」、くらいの理解で良いのかな、と思います。後の方でTouchdownの単語が出て来るのですが、こちらの方が「接地」が妥当な訳に思えますが、無理に訳すと逆に日本語として妙になるのでこちらは英語表記のままにしています。

言語、知覚、行動を統合し、それによる行動が成功したか評価する事は簡単です。このような問題を解決できるようになれば、エージェントが人々と共に運動や行動を行う能力を大いに高めることができます。しかし、これを実現するために十分な量で、且つ多様なデータセットを見つけたり作成することは困難です。

言語理解タスクでエージェントを迅速にトレーニングおよび評価する理想的なリソースは、現実世界の広範で視覚的に豊かで根拠を持つ仮想表現であるGoogleストリートビューの画像です。ストリートビューはGoogle Mapと統合されており、数十億通りの街路レベルのパノラマ画像で構成されています。

Cornell Techの研究者によって作成されたTouchdownデータセットは、ストリートビューを使用して、実地言語に関する研究を推進する魅力的な例です。

ただし、ストリートビューパノラマへにはアクセス制限がかけられているため、Touchdownはパノラマ自体ではなくパノラマIDのみを提供しています。そのため、より広範な研究コミュニティが研究に取り組むことが困難になる場合があります。

視覚と言語による案内(VLN:vision-and-language navigation)では、言語による道案内の指示と、特定視点からの空間的記述の解決を必要とする空間的記述解決(SDR:Spatial Description Resolution )が必要になります。

論文「Retouchdown: Adding Touchdown to StreetLearn as a Shareable Resource for Language Grounding Tasks in Street View」では、Touchdownタスクで参照されるストリートビューパノラマを既存のStreetLearnデータセットに追加することで、この問題に対処します。このデータを使用して、Touchdownで定義されたタスクと完全に互換性のあるモデルを生成します。また、VALANツールキットの一部として、Touchdownタスク用のオープンソースTensorFlow実装を提供しています。

実地言語を理解する
Touchdownの2つの基礎言語理解タスクは、道案内モデルのベンチマークとして使用できます。VLNでは、ある通りの場所から別の場所へ指示に従って移動する必要がありますが、SDRでは、周囲の視覚的情報に基づいて説明が与えられ、ストリートビューパノラマ画像内のポイントを識別する必要があります。以下のアニメーションでは、2つのタスクが一緒に実行されています。

Touchdownの指示に従う人のアニメーションの例
「傘が右側になるように自分の向きを決めます。まっすぐ進み、最初の交差点で右折します。次の交差点には、昔ながらの店が左側にあります。右側には恐竜の壁画があります。目標地点は恐竜の背中です」