iterative co-tokenization:動画内でボウルに注がれた2番目の食材が何か答えられるようにする(1/2)

１．iterative co-tokenization:動画内でボウルに注がれた2番目の食材が何か答えられるようにする(1/2)まとめ

・自動字幕、動画分析、動画を使った質問回答(VideoQA)など動画を使ったアプリは増えている
・VideoQAは動画とそれに付随するテキスト情報の両方の把握する必要があり特に困難
・VideoQAのために空間・時間・言語情報を効率的に融合共同トークン化手法を開発

２．co-tokenizationとは？

以下、ai.googleblog.comより「Efficient Video-Text Learning with Iterative Co-tokenization」の意訳です。元記事は2022年8月9日、AJ PiergiovanniさんとAnelia Angelovaさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Brooke Lark on Unsplash

動画は、人々の日常生活の多くの側面に触れる、身近なメディアコンテンツの源です。ビデオの字幕付け、ビデオの内容分析、ビデオ質問回答(VideoQA)など、実世界のビデオアプリケーションは、ビデオコンテンツとテキストや自然言語を結びつけるモデルにますます依存するようになってきています。

しかし、VideoQAは「撮影風景内の物体」と「その時間的な情報」(例えば、物体がどのように動き、どのように相互作用するかなど)の両方を意味的に把握する必要があり、特に困難です。

この2つの情報はどちらも特定の意図を持った自然言語による質問の文脈でとらえる必要があります。更に、動画はフレーム数が多いため、時空間情報を学習するために全てのフレームを処理するのは計算量が多くなる可能性があります。しかし、これらの情報を理解することで、複雑な質問に答えることができます。

例えば、以下のビデオでは、ボウルに注がれた2番目の材料についての質問では、物体(食材)、動作(注ぐ)、時間順序(2番目)を識別する必要があります。

VideoQAタスクの入力問題例「ボウルに注がれた2番目の食材は何ですか？」視覚とテキストの両方に関する深い理解が必要です。動画は50 Saladsデータセットからの例で、クリエイティブ・コモンズ・ライセンスの下で使用されています。

これを解決するため論文「Video Question Answering with Iterative Video-Text Co-Tokenization」では、VideoQAのために空間・時間・言語情報を効率的に融合できる、「反復的共同トークン化(iterative co-tokenization)」という新しいビデオ・テキスト学習のアプローチを紹介します。

このアプローチはマルチストリームで、異なる規模のビデオをそれぞれ独立したバックボーンモデルで処理し、異なる特徴表現、例えば、高い空間解像度や長い時間持続のものを捉えるビデオ特徴表現を生成するものです。

次に、このモデルは共同トークン化モジュールを適用し、ビデオストリームとテキストを融合して効率的な特徴表現を学習します。このモデルは非常に効率的で、67ギガFLOPs(GFLOPs)しか使用しません。これは、従来のアプローチよりも少なくとも50%少なく、更に他の最先端モデルよりも優れた性能を発揮します。

ビデオとテキストを共同でトークン化

このモデルの主な目的は、ビデオとテキスト(すなわち、ユーザーの質問)の両方から特徴表現を生成し、それらの対応する入力が相互に作用するようにすることです。第二の目標は、効率的な方法でこれを行うことです。動画は入力として数十から数百のフレームを含むため、これは動画を扱い際に非常に重要です。

このモデルでは、ビデオと言語の入力をトークン化し、両方の入力情報を効率的に表現する小さなトークンの集合にすることを学習します。

トークン化する際、両方の入力情報を使用して共同のコンパクトな特徴表現を生成し、それをtransformerレイヤーに送り、次のレベルの特徴表現を生成します。

クロスモーダル学習における典型的な課題として、ビデオフレームが関連するテキストに直接対応しない場合が多いことが挙げられます。私達は、トークン化の前に視覚とテキストの特徴次元を統一する2つの学習可能な線形レイヤーを追加することでこの問題に対処します。この方法により、ビデオとテキストの両方が、ビデオトークンの学習方法を決定することができるようになります。

さらに、単一のトークン化ステップでは、2つの入力情報間でそれ以上に相互作用させる事は不可能です。そのため、この新しい特徴表現を用いて、ビデオ入力の特徴表現と相互作用させ、別のトークン化された特徴表現のセットを生成し、次のtransformerレイヤに送り込みます。この反復プロセスにより、新しい特徴表現(トークン)が生成され、両入力情報を結合した特徴表現が継続的に洗練されます。最後のステップで、特徴表現はテキスト出力を生成するデコーダへ入力されます。

VideoQAで通常行われるように、個々のVideoQAデータセットで微調整を行う前に、モデルを事前学習します。この研究では、大規模なVideoQAデータセットで事前学習を行う代わりに、HowTo100Mデータセットを用いて、音声認識に基づいて自動的にテキストで注釈付けされたビデオを使用します。このような弱い事前学習データでも、私達のモデルはビデオテキストの特徴表現を学習することが可能です。

ビデオとテキストの反復的共同トークン化アプローチの視覚化
マルチストリームのビデオ入力は、同じビデオ入力の様々なバージョン(例えば、高解像度、低フレームレートのビデオと低解像度、高フレームレートのビデオ)であり、デコーダによってテキストベースの答えを生成するためにテキスト入力と効率的に融合されます。
ビデオ-テキスト反復的共同トークン化モデルは、入力を直接処理する代わりに、融合されたビデオ言語入力から有用なトークンの数を減らして学習します。この処理は繰り返し行われ、現在の特徴トークン化が次の繰り返しにおけるトークンの選択に影響を与え、選択を洗練させることができます。