ストリートビュー画像を道案内用AIの研究者に提供(2/3)

入門/解説

1.ストリートビュー画像を道案内用AIの研究者に提供(2/3)まとめ

・研究コミュニティがTouchdownタスクを使用できるようにストリートビュー画像が利用しやすくなった
・Googleの利用規約と個人情報保護のために大量ダウンロードや無期限保存は出来ないと言う制限はある
・VLNとSDRの両方の指示を一緒に実行するエージェントの訓練を行うためにデータセットを利用できる

2.VLNタスクとSDRタスク

以下、ai.googleblog.comより「Enhancing the Research Community’s Access to Street View Panoramas for Language Grounding Tasks」の意訳です。元記事の投稿は2020年2月25日、Harsh MehtaさんとJason Baldridgeさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Jezael Melgoza on Unsplash

TouchdownのVLNタスク(vision-and-language navigation:視覚と言語情報による道案内)は、ストリートビューの方が視覚的多様性と移動の自由度がはるかに高い事を除けば、人気のあるRoom-to-Roomデータセットで定義されているタスクに似ています。Touchdownの基準となるベースラインモデルのパフォーマンスは、言語的および視覚的表現、それらの統合、およびそれらに条件付けられたアクションの実行の学習を含む、タスクの多くの面で革新と改善の余地を残しています。

そのため、より広範な研究コミュニティがTouchdownタスクを使用できるようにするためには、Google Maps/Google Earth利用規約と個人情報保護の2つのニーズを保護するために、特定の安全対策が必要になります。例えば、パノラマを大量にダウンロードしたり、無期限に保存したりすることはできません。(何故なら、個人からの申し立てに基づき特定のパノラマを削除する事が必要になる場合もあるためです)。従って、研究者は、これらの条件に準拠しつつデータを扱うために、パノラマを定期的に削除および更新する必要があります。

StreetLearn:研究用に承認されたパノラマのデータセット
ストリートビューパノラマデータを扱う別の方法は、昨年、DeepMindによって作成されたStreetLearnデータセットです。StreetLearnに関心のある研究者は、ニューヨーク市とピッツバーグの地域の11.4万のパノラマ画像セットの利用をフォームから申請できます。最近、StreetLearnは、Googleマップの指示に従うエージェントのトレーニングと評価を含む一連のStreetNavタスクにより使用されています。これは、TouchdownやRoom-to-RoomのようなVLNタスクです。ただし、人間による自然言語による指示を使用しないという点で大きく異なります。

更に、StreetLearnのパノラマはTouchdownと同じマンハッタンのエリアをカバーしていますが、Touchdownで定義されたタスクを行う研究には適していません。例えば、Touchdownタスクでは、言語を用いた指示は、車、自転車、ソファなどの一時的にそこに存在する物体を指します。異なる期間に撮影されたストリートビューパノラマにはこれらの物体が含まれていない可能性があるため、指示は安定して実行できません。

D
Touchdownによる指示の一例
「駐輪中の自転車2台と破棄されたソファーを左手に、ソファーを通り過ぎるまで歩いて、停車している別の自転車の前で停止します。この自転車は白と赤で、白い座席があります。目標地点は自転車のシートの上です。」同じ場所を別の時間に撮影した他のパノラマでは、これらの物体が全く同じ位置に含まれている可能性は非常に低いでしょう。具体的な例については、ストリートビューでこの場所に利用できる現在の画像をご覧ください。非常に異なった物体が写り込んでいる事でしょう。

さらに、SDR(Spatial Description Resolution:空間的記述の解決)では、これらの特定のパノラマに対して複数の視点をカバーする必要があります。例えば、以下のパノラマは、前のパノラマから更に一歩進んだ視点からのものです。

一見、似ているかもしれませんが、実際にはまったく違います。(両方のパノラマの左側にある自転車は同じ自転車ではないことに注意してください)。Touchdownタスクの目標位置は、最初のパノラマの中央(自転車の座席)にあり、二枚目のパノラマでは左下にあります。

そのため、SDR問題で正解となる画素の範囲は、パノラマごとに場所が異なりますが、しかし、Touchdownタスクで指示された現実世界の場所としては一貫しています。

これは、VLNとSDRの両方の指示を一緒に実行するエンドツーエンドタスクにとって特に重要です。エージェントが停止した時、エージェントは(ターゲット位置が画面内に表示されている限り)現在の位置に関係なくSDRタスクを完了できねばなりません。


さきほどのシーンからさらに一歩進んだ位置でのパノラマ画像

3.ストリートビュー画像を道案内用AIの研究者に提供(2/3)関連リンク

1)ai.googleblog.com
Enhancing the Research Community’s Access to Street View Panoramas for Language Grounding Tasks

2)arxiv.org
Retouchdown: Adding Touchdown to StreetLearn as a Shareable Resource for Language Grounding Tasks in Street View

3)sites.google.com
StreetLearn Learning to navigate in cities without a map

4)github.com
VALAN: Vision and Language Agent Navigation
lil-lab/touchdown

コメント

タイトルとURLをコピーしました