FindIt：テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(1/2)

１．FindIt：テキストの指示に基づいて画像内からサンドイッチの左半分を特定可能な統合モデル(1/2)まとめ

・物体レベルの識別タスクは３種類あるが別々に研究される事が多い
・３種のタスクに柔軟に対応できるFindItと呼ばれる統一視覚モデルを開発
・FindItはシンプルで効率的で２種のタスクで最先端のスコアを達成した

２．参照表現理解とは？

以下、ai.googleblog.comより「FindIt: Generalized Object Localization with Natural Language Queries」の意訳です。元記事は2022年9月20日、Weicheng KuoさんとAnelia Angelovaさんによる投稿です。

アイキャッチ画像はstable diffusionによる生成でfinditしているトトロ

自然言語は、柔軟で記述的な問い合わせを画像に関しても可能にします。テキストによる問い合わせと画像の相互作用は、視覚的世界に言語的意味を根拠づけ、物体の関係、物体に対する人間の意図、環境との相互作用の理解を促進します。

研究コミュニティは、様々なタスクを通じて、物体レベルの視覚的な基礎知識について研究してきました。例えば、「参照表現理解」、「テキストベースの位置特定」、より広範にわたる「物体検出」などがあり、それぞれモデルに異なるスキルが要求されます。

例えば、「物体検出(object detection)」は、あらかじめ定義されたクラスの集合からすべての物体を見つけようとするもので、正確な位置特定と分類が必要です。

一方、「参照表現理解(referring expression comprehension)」は、参照テキストから物体を特定するタスクで、しばしば、目立つ物体に関する複雑な推論が必要です。

この2つの交差点に位置するのが「テキストベースの位置特定(text-based localization)」であり、単純なカテゴリベースのテキスト問い合わせで、関心のある物体を検出するようにモデルを促すものです。

参照表現の理解、検出、およびテキストベースの位置特定は、そのタスク特性が異なるため、ほとんどのモデルが1つのタスクにのみ特化し、別々のベンチマークを通じて研究されています。

そのため、既存のモデルでは、3つのタスクからの情報を適切に統合し、より全体的な視覚的・言語的理解を実現することができませんでした。

例えば、参照表現理解モデルは、画像ごとに1つの物体を予測するように訓練されており、しばしば、複数の物体の位置特定、否定形の問い合わせ、または新規カテゴリの検出に苦労しています。

さらに、物体検出モデルはテキスト入力を処理することができず、テキストベースの位置特定モデルは、「サンドイッチの左半分(Left half sandwich)」のような1つの実体内の位置を参照する複雑な問い合わせを処理するのに苦労することがよくあります。最後に、どのモデルも学習データやカテゴリを越えて十分に汎化することができません。

これらの制限を解決するために、私達は「FindIt: Generalized Localization with Natural Language Queries」をECCV 2022で発表します。

ここでは、異なるタイプの基礎的、及び検出的問い合わせに柔軟に回答できる、FindItと呼ばれる統一された汎用的かつマルチタスクな視覚的基礎モデルを提案します。

このアーキテクチャの鍵は、参照表現理解のための複雑な推論を実行し、同時にテキストベースの位置特定と検出のための小さくて難しい物体を認識できるマルチレベルのクロスモダリティ融合モジュールです。

さらに、標準的な物体検出器と検出損失は、3つのタスクすべてにおいて十分かつ驚くほど効果的であることを発見することができました。既存の研究によくあるタスクに特化した設計や損失を必要としません。

FindItはシンプルで効率的であり、参照表現理解とテキストベースの位置特定ベンチマークにおいて他の最先端モデルを上回り、物体検出ベンチマークでは競争力を持ちます。

FindItは、参照表現理解(1列目)、テキストベースの位置特定(2列目)、物体検出タスク(3列目)のための統一的なモデルです。FindItは、「机を見つけなさい(Find the desk)」(4列目)のように、学習時に出てこなかった物体タイプ／クラスに対してテストを行っても、正確に応答することができます。既存の比較対象モデル(MattNetやGPV)と比較して、FindItはこれらのタスクを1つのモデルで良好に実行することが可能です。

マルチレベルの画像-テキスト融合

位置特定タスクは、それぞれ異なる意味理解の目的で作成されています。例えば、参照表現タスクは、小さな物体、隠されている物体、遠くにある物体よりも、画像中の目立つ物体を主に参照するため、一般に低解像度の画像で十分です。

一方、物体検出タスクは、高解像度の画像から様々な大きさの物体や部分的に隠れている物体を検出することを目的としています。

これらの検出目的とは別に、一般的な視覚に基づく問題は、自然な問い合わせ文があらゆる大きさの物体を参照することができるため、本質的にマルチスケールです。このため、異なる位置特定タスクにおいて高解像度画像を効率的に処理するためのマルチレベルの画像-テキスト融合モデルの必要性が動機付けられます。

FindItの前提は、画像とテキストの間のすべてのペアの相互作用を捉えることができる、より表現力の高いtransformer層を使用して、より高いレベルの意味的特徴を融合させることです。低レベルの高解像度特徴については、計算とメモリのコストを節約するために、より安価な内積融合(dot-product fusion)を使用します。融合された特徴マップの上に検出器ヘッド(例えば、Faster R-CNN)を取り付け、境界ボックスとそのクラスを予測します。

FindIt は画像とクエリテキストを入力として受け取り、画像／テキストバックボーンで別々に処理した後、マルチレベル融合処理を適用しています。融合された特徴をFaster R-CNNに与え、テキストから参照される境界ボックスを予測します。特徴量融合では、高レベルではより表現力の高いtransformers を用い、低レベルではより安価な内積を用います。