DELG：インスタンスレベルの画像認識の進歩(2/2)

１．DELG：インスタンスレベルの画像認識の進歩(2/2)まとめ

・今年はランドマークを対象とした2つの新しいコンペをKaggleで開催
・1,200を超えるチームが集まりDELGの基準スコアを大幅に上回った
・メトロポリタン美術館のデータを使った美術品認識データセットが準備中

２．DELGとは？

以下、ai.googleblog.comより「Advancing Instance-Level Recognition Research」の意訳です。元記事の投稿は2020年9月25日、 Cam AskewさんとAndré Araujoさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Eutah Mizushima on Unsplash

オープンソースとして公開されたTensorflow2用のコード
私達の研究結果を再現できるようにするために、DELGや、DELFやDetect-to-Retrieveなどのインスタンスレベルの認識に関連するその他の手法を含む、改良したコードをgithubでオープンソースとして公開しています。

私達のコードは最新のTensorflow2を採用しており、画像検索とマッチング機能に加えて、モデルのトレーニングと推論のために実装を参照できるようにしています。ILR分野の研究のための強力な基盤を開発するために、このコードベースを使用して貢献するようにコミュニティを招待します。

インスタンスレベルの認識に関する新たな課題
ランドマークの認識に焦点を当てたGoogle Landmarks Dataset v2(GLDv2)は、インスタンスレベルの認識に利用できる最大のデータセットであり、200,000のカテゴリにまたがる500万の画像があります。

このデータセットでランドマーク検索モデルをトレーニングすることにより、以前のデータセットでトレーニングされたモデルと比較して、平均平均精度が最大6%向上する事を実証しました。また、最近、GLDv2データセットを視覚的に探索するための新しいブラウザインターフェイスをリリースしました。

今年は、ランドマークを対象とした2つの新しい課題を行いました。1つは認識に焦点を当て、もう1つは検索に焦点を当てています。

これらの課題は、新しく収集されたテストセットと新しい評価方法が特徴です。

従来のように予測結果をCSVファイルとしてアップロードするのではなく、参加者はKaggleサーバに実行用モデルとコードを提出する必要があります。モデルとコードはKaggleサーバ上で実行され、スコアリングされランク付けされます。この計算環境の制限は、効率的で実用的なソリューションに重点を置くために行われます。

課題には1,200を超えるチームが集まりました。昨年の3倍であり、参加者は強力なDELGが達成した基準スコアを大幅に上回りました。

認識タスクの最高スコアは、平均精度スコアを相対的に43%上回り、検索タスクでは勝者チームは、mAPスコアを相対的に59%改善しました。

この後者の結果は、より効果的なニューラルネットワーク、プーリング方法、トレーニングプロトコルの組み合わせによって達成されました。(Kaggleコンペティションサイトで詳細を参照してください)。

ランドマーク認識とランドマーク検索の課題に加えて、学術会および産業会の協力者達と、他の領域でのILR用ベンチマークとコンペの開発に関する進捗状況について話し合いました。

美術品認識のための大規模な研究ベンチマークが構築中です。
これは、The Met(メトロポリタン美術館)が公開してくれている画像コレクションを活用し、様々なパノラマ画像および地理的多様性を示すゲスト写真で構成される新しいテストセットを使用します。

同様に、新しい大規模な製品検索コンペティションは、非常に多くの製品を含む事、サンプル数の偏りが大きいクラス分布、物体の外観と状態が多様な事、など、様々な側面から挑戦的です。

スライドやビデオ録画など、ILRワークショップの詳細については、ilr-workshop.github.ioを参照してください。

今回の調査結果、オープンソース化されたコード、データ、課題により、インスタンスレベルの認識の進歩を促進し、様々なコミュニティの研究者や機械学習愛好家が様々な領域にまたがる手法を開発できるようにしたいと考えています。

謝辞
このプロジェクトの主なGoogleの貢献者は、André Araujo, Cam Askew, Bingyi Cao, Jack Sim 及び Tobias Weyandです。

ILRワークショップの共催者であるOndrej Chum, Torsten Sattler, Giorgos Tolias(Czech Technical University), Bohyung Han(Seoul National University), Guangxing Han(Columbia University), Xu Zhang (Amazon)、アートワークデータセットの協力者であるNanne van Noord, Sarah Ibrahimi (University of Amsterdam), Noa Garcia(Osaka University), およびメトロポリタン美術館の協力者であるJennie Choi, Maria Kessler そして Spencer Kiserに感謝します。

オープンソースのTensorflowコードベースについては、直近の貢献者であるDan Anghel, Barbara Fusinska, Arun Mukundan, Yuewei Na そして Jaeyoun Kimの協力に感謝します。

Kaggleのランドマークコンテストをサポートしてくれた、Will Cukierski, Phil Culliton, Maggie Demkinに感謝します。また、データ収集に協力してくれたRalph KellerとBoris Bluntschliにも感謝します。