ストリートビュー画像を道案内用AIの研究者に提供(2/3)

１．ストリートビュー画像を道案内用AIの研究者に提供(2/3)まとめ

・研究コミュニティがTouchdownタスクを使用できるようにストリートビュー画像が利用しやすくなった
・Googleの利用規約と個人情報保護のために大量ダウンロードや無期限保存は出来ないと言う制限はある
・VLNとSDRの両方の指示を一緒に実行するエージェントの訓練を行うためにデータセットを利用できる

２．VLNタスクとSDRタスク

以下、ai.googleblog.comより「Enhancing the Research Community’s Access to Street View Panoramas for Language Grounding Tasks」の意訳です。元記事の投稿は2020年2月25日、Harsh MehtaさんとJason Baldridgeさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Jezael Melgoza on Unsplash

TouchdownのVLNタスク(vision-and-language navigation:視覚と言語情報による道案内)は、ストリートビューの方が視覚的多様性と移動の自由度がはるかに高い事を除けば、人気のあるRoom-to-Roomデータセットで定義されているタスクに似ています。Touchdownの基準となるベースラインモデルのパフォーマンスは、言語的および視覚的表現、それらの統合、およびそれらに条件付けられたアクションの実行の学習を含む、タスクの多くの面で革新と改善の余地を残しています。

そのため、より広範な研究コミュニティがTouchdownタスクを使用できるようにするためには、Google Maps/Google Earth利用規約と個人情報保護の２つのニーズを保護するために、特定の安全対策が必要になります。例えば、パノラマを大量にダウンロードしたり、無期限に保存したりすることはできません。(何故なら、個人からの申し立てに基づき特定のパノラマを削除する事が必要になる場合もあるためです)。従って、研究者は、これらの条件に準拠しつつデータを扱うために、パノラマを定期的に削除および更新する必要があります。

StreetLearn：研究用に承認されたパノラマのデータセット
ストリートビューパノラマデータを扱う別の方法は、昨年、DeepMindによって作成されたStreetLearnデータセットです。StreetLearnに関心のある研究者は、ニューヨーク市とピッツバーグの地域の11.4万のパノラマ画像セットの利用をフォームから申請できます。最近、StreetLearnは、Googleマップの指示に従うエージェントのトレーニングと評価を含む一連のStreetNavタスクにより使用されています。これは、TouchdownやRoom-to-RoomのようなVLNタスクです。ただし、人間による自然言語による指示を使用しないという点で大きく異なります。

更に、StreetLearnのパノラマはTouchdownと同じマンハッタンのエリアをカバーしていますが、Touchdownで定義されたタスクを行う研究には適していません。例えば、Touchdownタスクでは、言語を用いた指示は、車、自転車、ソファなどの一時的にそこに存在する物体を指します。異なる期間に撮影されたストリートビューパノラマにはこれらの物体が含まれていない可能性があるため、指示は安定して実行できません。

D
Touchdownによる指示の一例
「駐輪中の自転車2台と破棄されたソファーを左手に、ソファーを通り過ぎるまで歩いて、停車している別の自転車の前で停止します。この自転車は白と赤で、白い座席があります。目標地点は自転車のシートの上です。」同じ場所を別の時間に撮影した他のパノラマでは、これらの物体が全く同じ位置に含まれている可能性は非常に低いでしょう。具体的な例については、ストリートビューでこの場所に利用できる現在の画像をご覧ください。非常に異なった物体が写り込んでいる事でしょう。