Google-Landmarks-v2：ランドマークの認識と検索のためのデータセット(2/2)

１．Google-Landmarks-v2：ランドマークの認識と検索のためのデータセット(2/2)まとめ

・世界中のランドマークをラベル付けするのは困難でクラウドソーシングの力を借りた
・Landmark Recognition 2019とLandmark Retrieval 2019も賞金総額5万ドルで開催
・Detect-to-Retrieveは境界ボックスを利用して対象の画像領域に追加の重み付けをする

２．Landmark Recognition 2019とは？

以下、ai.googleblog.comより「Announcing Google-Landmarks-v2: An Improved Dataset for Landmark Recognition & Retrieval」の意訳です。元記事は2019年5月3日、Bingyi CaoさんとTobias Weyandさんによる投稿です。

データセットの作成
Google-Landmarks-v2を作成する際に特に問題となるのは、表示されたランドマークにインスタンスが判別できるようにラベルを付けることでした。これは、どんなに優秀なラベル付け作業者であっても世界中に存在する数十万のランドマーク全てをインスタンスレベルで識別する事はほぼ不可能なため難しい作業です。

この問題に対する私達の解決策は、各々が自分の住んでいる地域のランドマークに精通しており写真を趣味とする世界規模のコミュニティの力を借りて、ランドマークのラベリングをクラウドソーシングすることでした。

Google-Landmarks-v2の画像例。左上からノイシュヴァンシュタイン城、ゴールデンゲートブリッジ、清水寺、ブルジュ・ハリファ、ギザの大スフィンクス、マチュピチュ。

研究データセットのもう1つの課題は、長期間にわたって研究の進行状況を追跡するためにデータセットを使用できるように、画像を自由に共有し、無期限に保存するという要件です。

そのため、Google-Landmarks-v2の画像をウィキメディアコモンズから入手し、世界的に有名なランドマークとあまり知られていないローカルランドマークの両方を取り入れ、広い地理的範囲を確保しました（歴史的建造物の国際写真コンテストであるWiki Loves Monumentsにも感謝します)。また、公的機関から提供された写真も含まれます。これには、時の流れとインスタンスの変遷の認識をテストするのに役立つ歴史的な写真が含まれます。

The Kaggle Challenges
Landmark Recognition 2019の目的は、質問画像内に提示されたランドマークを認識することであり、Landmark Retrieval 2019の目的は、そのランドマークを示す全ての画像を見つけることです。賞金総額は5万ドル、優勝チームはCVPR 2019のSecond Landmark Recognition Workshopに招待され彼らが用いた手法を発表できます。

Open Sourcing our Model
研究の再現性を促し、インスタンス認識の分野を前進させるために、私たちはDetect-to-Retrieveと呼ばれる新しい手法を実装したコードをオープンソースで公開しています(これはCVPR 2019で論文として発表されます)。この新しい方法では、オブジェクト検出モデルの境界ボックスを利用して、対象のクラスを含む画像領域に追加の重み付けをします。これにより、精度が大幅に向上します。

私たちが公開しているモデルは、オリジナルのGoogle-Landmarksデータセットから抜き出した86,000の画像で訓練されました。各画像はランドマーク部分を境界ボックスでラベル付けしています。KaggleのGoogle-Landmarks Datasetでは、これらのラベルを元のデータセットと一緒に利用できるようにしています。

私たちは研究者と機械学習の愛好家に、Landmark Recognition 2019とLandmark Retrieval 2019 Kaggleの挑戦に参加し、CVPR 2019の第2回目のLandmark認識ワークショップに参加することをお勧めします。このデータセットが、インスタンス認識と画像検索における最先端の進歩に役立つことを願っています。データはCommon Visual Data Foundationを介して利用可能にされています。

謝辞
このプロジェクトの中心的な貢献者は、Andre Araujo、Bingyi Cao、Jack Sim、およびTobias Weyandです。チームメンバーのDaniel Kim、Emily Manoogian、Nicole Maffeo、そしてHartwig Adamに感謝します。また、Marvin TeichmannとMenglong Zhuが、ランドマークの境界ボックスを収集しDetect-to-Retrieve手法を開発して頂いた事に感謝します。
Kaggleチャレンジを手助けしてくれたWill CukierskiとMaggie Demkinに感謝します。データ収集を支援してくれたElan Hourticolon-Retzler、Yuan Gao、Qin Guo、Gang Huang、Yan Wang、Zhicheng Zhengに感謝します。Tsung-Yi LinにCVDFのホスティングの支援に感謝します。CVPRワークショップの共催者であるBohyung Han、Shih-Fu Chang、Ondrej Chum、Torsten Sattler、Giorgos Tolias、そしてXu Zhangに感謝します。
私達はWikimedia Commons Communityと世界の文化遺産の貴重な写真アーカイブへの彼らのボランティアの貢献にとても感謝しています。そして最後に、データセットをホストしてくれたCommon Visual Data Foundationに感謝します。