Google Universal Image Embeddingチャレンジの紹介(1/2)

１．Google Universal Image Embeddingチャレンジの紹介(1/2)まとめ

・物体の属しているクラスではなく特定の実体まで認識する事を実体レベルの認識タスクと言う
・世界に一つしかない物体と多くの複製品を持つ可能性のある物体は性質が相反して認識困難
・複数の領域に跨って実体レベルの認識を行う能力を競うコンペがKaggleで開催されている

２．実体レベルの認識とは？

以下、ai.googleblog.comより「Introducing the Google Universal Image Embedding Challenge」の意訳です。元記事は2022年8月4日、Bingyi CaoさんとMário Lipovskýさんによる投稿です。

アイキャッチ画像はlatent diffusionでプロンプトは敢えてフランス語で「Arc de Triomphe de l’Étoile」と入れてみたエトワール凱旋門。完璧ですね。

コンピュータビジョンモデルは、物体認識から画像ベースの3D物体再構成まで、様々なタスクに日常的に適用されています。コンピュータビジョンの課題の一つに「実体レベルの認識(ILR:Instance-Level Recognition)」があります。

これは、物体の画像が与えられたときに、その物体の一般的なカテゴリ(例えば、門)を決定するだけでなく、その物体の特定の実体(フランスのパリにあるエトワール凱旋門)を決定する課題です。

これまで、ILRはディープラーニングのアプローチで取り組まれてきました。まず、大規模な画像セットを収集します。次に、ディープモデルを学習させ、高次元空間で類似した画像が類似した特徴表現を持つように各画像を埋め込み(embed)ます。

最後に、この特徴表現を用いて、分類(例えば、embeddingで訓練した浅い分類器を用いて)または検索(例えば、embedding空間における最近傍探索を用いて)に関連するILRタスクを解くことができました。

世界には地域の目印となるランドマーク、製品、芸術作品など様々な分野の物体が存在するため、それらを全て1つのデータセットに取り込み、それらを区別できるモデルを学習することは非常に困難な作業です。

この問題の複雑さを管理可能なレベルまで軽減するため、これまでの研究では、分野を一つに限定したILRを扱う事が中心となっていました。この分野の研究を進めるために、私たちはランドマーク画像の認識と検索に焦点を当てたKaggleコンペティションを複数回開催しています。2020年にはAmazonがこの取り組みに参加し、ランドマーク領域を超えて、アートワークや実物商品の認識という領域まで拡大しました。次のステップは、ILRタスクを複数の分野で汎用的にすることです。

そのため、Google ResearchとGoogle Lensの協力のもと、Kaggleが主催する「Google Universal Image Embedding Challenge」を発表することになりました。このチャレンジでは、複数のドメインの物体を実体レベルで表現できる単一のユニバーサル画像embeddingモデルを構築することを参加者に求めます。私たちは、これが、博物館での文化的展示物の補強、写真コレクションの整理、ビジュアルコマースなど、実世界のビジュアル検索アプリケーションの鍵になると考えています。

アパレル・アクセサリー、家具・家庭用品、玩具、車、ランドマーク、食器、アートワーク・イラストなど、データセットに含まれるいくつかの分野の実体画像です。

異なるドメインにおける変化の度合い

多くの領域の物体を表現するためには、1つのモデルに多くの領域固有のサブタスク(例えば、異なる種類のノイズをフィルタリングする、特定の細部に焦点を当てるなど)を学習させる必要がありますが、これは意味的・視覚的に多様な画像のコレクションからしか学習することができません。このような多様性に対応するためには、画像収集とモデル学習の双方に新たな課題を提起します。

最初のバリエーションは、あるドメインには世界で唯一の物体(ランドマーク、アートワークなど)がある一方、他のドメインには多くの複製品を持つ可能性のある物体(衣類、家具、パッケージ商品、食品など)があるという事実に由来するものです。

ランドマークは常に同じ場所に置かれているため、周囲環境が認識に役立つ場合があります。一方、製品、例えば携帯電話は、特定のモデルや色であっても、数百万個の物理的な実体があり、したがって、周囲環境も様々になる可能性があります。

また、1つの物体が視点、照明条件、遮蔽物、変形などによって異なって見えるという問題もあります。(例えば、人が着ている服とハンガーにかかっている服は全く違って見えるかもしれません)。これらの視覚モードに対する不変性をモデルに学習させるためには、学習データ内でこれらの視覚モードがすべて把握されている必要があります。

さらに、物体間の類似性はドメインによって異なります。例えば、商品の分野では、2つの異なるブランドの同じような外観の商品を、非常に細かい部分まで区別できる特徴表現が必要です。

しかし、食べ物の分野では、2人のシェフが作った同じ料理(例えば、スパゲッティ・ボロネーゼ)が全く違って見えても、スパゲッティ・ボロネーゼと他の料理を区別する能力があれば、そのモデルは十分有用であると考えられます。さらに、高品質な視覚モデルは、より視覚的に類似した料理の特徴表現に類似した特徴表現を割り当てるべきです。