ALIGN：ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(1/3)

１．ALIGN：ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(1/3)まとめ

・視覚言語間マッチングモデルは文章や画像を入力して関連性の高い画像を見つけるのに役立つ
・最先端の視覚および視覚対言語モデルは厳選されたトレーニングデータセットに大きく依存
・ノイズが多くともデータ規模を18億に拡大したところ最先端のパフォーマンスが得られた

２．ALIGNとは？

以下、ai.googleblog.comより「ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision」の意訳です。元記事の投稿は2021年5月11日、Chao JiaさんとYinfei Yangさんによる投稿です。

OpenAIのCLIPのGoogle版ですね。

ALIGNは、「一列に整列させる」や「一直線にする」の意味ですが、これもALIGNになるんだな、と感心したアイキャッチ画像のクレジットはPhoto by davide ragusa on Unsplash

コンピュータビジョンの問題(画像検索、画像分類、ビデオ理解)を解決するには、優れた視覚的特徴表現と視覚と言語間の特徴表現(vision-language representations)を学ぶことが重要であり、人々の日常生活を変えるツールや製品の開発を可能にします。例えば、優れた視覚言語間マッチングモデル(vision-language matching model)は、ユーザーが文章や画像を入力して最も関連性の高い画像を見つけるのに役立ち、Google Lensなどのツールが画像に関するより詳細な情報を見つけるのに役立ちます。

このような特徴表現を学習するために、現在の最先端(SotA:state-of-the-art)の視覚および視覚対言語モデルは、専門知識と広範なラベルを必要とする厳選されたトレーニングデータセットに大きく依存しています。

視覚アプリケーションの場合、特徴表現は主に、ImageNet、OpenImages、JFT-300Mなどの明示的なクラスラベルを持つ大規模なデータセットで学習されます。

視覚対言語アプリケーションの場合、Conceptual CaptionsやVisual Genome Dense Captionsなどの一般的な事前トレーニングデータセットはすべて、重要なデータ収集とクリーニングの手順を必要とし、データセットのサイズを制限するため、トレーニング済みモデルの規模拡大を妨げます。

対照的に、自然言語処理(NLP:Natural Language Processing)モデルは、人間が付与したラベルのない生のテキストを大規模な事前トレーニングに利用することにより、GLUEおよびSuperGLUEベンチマークでSotAパフォーマンスを達成しました。

ICML 2021で発表される論文「Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision」では、このギャップをインターネット上で公開されている画像の代替テキストデータ(alt-text、画像がユーザーのブラウザ画面に読み込みできなかった際に、Webページ上の画像の代わりに表示されるようにimgタグ内で指定するテキスト)で埋めることを提案します。より大きな最先端の視覚モデルと視覚言語間モデルをトレーニングするためにこれを行います。

そのために、Conceptual Captionsデータセットで行っている手間のかかるフィルタリングや後処理ステップを行わずに取得された、10億を超える画像と代替テキストのペアをノイズの多いデータセットとして活用します。

利用可能な言語資料の規模がノイズの多いデータを補完し、SotA特徴表現につながり、ImageNetやVTABなどの分類タスクに転移されたときに強力なパフォーマンスを達成できることを示します。

調整された視覚と言語の特徴表現は、Flickr30KおよびMS-COCOベンチマークで新しいSotAスコアを達成しました。より洗練されたクロスアテンションモデルと比較しても上回っており、更にゼロショット画像分類、複雑なテキストを使った検索、テキストを使った画像の検索などの形式間を跨ぐ(クロスモダリティ)検索を可能にします。

データセットの作成
代替テキストは通常、画像の内容の説明を提供しますが、一部のテキストがペアの画像と部分的または完全に関連していない可能性があるため、データセット内には「ノイズが多い」です。

ALIGNのトレーニングデータセットからランダムにサンプリングされた画像とテキストのペアの例
明らかにノイズの多いテキストラベルの1つは、イタリック斜体で記されています。

本研究では、Conceptual Captionsデータセットを構築する方法論に従って、生の英語のalt-textデータ(画像とalt-textのペア)の版を取得します。

Conceptual Captionsデータセットは、大量のフィルタリングと後処理によってクリーンアップされましたが、本作業では、元の作業のクリーニング手順のほとんどを緩和することにより、視覚および視覚言語表現の学習をスケールアップします。代わりに、最小限の周波数ベースのフィルタリングのみを適用します。その結果、18億の画像とテキストのペアのはるかに大きいがノイズの多いデータセットになります。