Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)

モデル

1.Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)まとめ

・数分レベルの長さのビデオの中のすべてのイベントを説明するタスクを「高密度ビデオキャプション」という
・標準的なビデオキャプションと比べて高度に専門化した固有の部品があるため基盤モデルに統合する事が困難
・Vid2Seqは言語モデルを時間を表すトークンで補強してイベントの境界とテキストによる説明を同時に扱える

2.高密度ビデオキャプションとは?

以下、ai.googleblog.comより「Vid2Seq: a pretrained visual language model for describing multi-event videos」の意訳です。元記事は2023年3月17日、Antoine YangさんとArsha Nagraniさんによる投稿です。

Alpha碁で有名なDeepMindとGoogle Brainが合体すると言うニュースが流れてきましたが、そうするとGoogle AIブログはどうなるのかな、と思いつつ、DeepMindも「人工汎用知能(AGI)が出来たら人類共通の財産にするべき」なんて話をしていた記憶があるので、AGI実現向けての競争ならぬ、狂騒は過熱していくのだろうな、と思います。

アイキャッチ画像はビデオ編集のイメージをchatGPT先生に伝えて作って貰ったプロンプトを私が修正してカスタムStable Diffusion先生に作って貰ったイラスト

動画は、エンターテインメント、教育、コミュニケーションなどの分野で、私たちの日常生活の中でますます重要な位置を占めるようになっています。

しかし、動画には異なる時間軸で起こる複数の事象が含まれているため、その内容を理解することは困難です。例えば、旅人が犬ぞりに犬をつないで走る動画には、長いイベント(犬がそりを引く)と短いイベント(犬がそりにつながれる)が含まれています。映像理解の研究を促進する一つの方法として、数分の映像の中のすべての事象を時間的に位置づけて説明する「高密度ビデオキャプション(dense video captioning)」というタスクがあります。これは、単一画像を説明する画像キャプションや、短い動画を一文で説明する標準的なビデオキャプションとは異なるものです。

高密度ビデオキャプションシステムは、視覚や聴覚に障害のある人がビデオを利用できるようにしたり、ビデオのチャプターを自動的に生成したり、大規模なデータベースでビデオの特定の瞬間を検索する機能を改善したりするなど、幅広い用途に利用されています。

しかし、現在の高密度ビデオキャプションの手法にはいくつかの制限があります。例えば、それらはしばしば高度に専門化したタスク固有のコンポーネントを含み、強力な基盤モデルに統合することを困難にしています。さらに、手動で注釈付けされたデータセットのみを用いて学習することが多く、入手が非常に困難であるため、規模拡大可能な解決策とは言えません。

本投稿では、CVPR 2023に掲載される「Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning」を紹介します。

Vid2Seqアーキテクチャは、言語モデルを特別な時間トークン(special time tokens)で補強し、同じ出力シーケンスでイベントの境界とテキストによる説明をシームレスに予測できるようにします。

この統合モデルを事前学習させるために、ラベルのないナレーション付き動画を活用し、書き起こされた音声の文節境界を擬似イベント境界として再定義し、書き起こされた音声文を擬似イベント説明文として使用することで、このモデルを実現しました。

数百万本のナレーション付き動画で事前学習されたVid2Seqモデルは、YouCook2、ViTT、ActivityNet Captionsなどの様々な高密度動画キャプションベンチマークにおいて技術水準を向上させます。また、Vid2Seqは少数数回ショットの高密度ビデオキャプション設定、ビデオ段落キャプションタスク、標準ビデオキャプションタスクにうまく一般化します。最後に、Vid2Seqのコードもgithub.comに公開しました。


Vid2Seqは、1つのトークンのシーケンスを生成することで、ビデオにおける時間的な根拠とともに、密なイベントキャプションを予測する視覚言語モデルです。

高密度ビデオキャプションのための視覚言語モデル

マルチモーダルtransformerアーキテクチャは、行動認識などの幅広いビデオタスクのスコアを更新してきました。しかし、このようなアーキテクチャを、数分規模のビデオ内のイベントを区切って、局所的な説明文を付けるという複雑なタスクに適応させるのは、簡単ではありません。

私たちは、視覚言語モデルを、空間領域のPix2Seqと同様に、ビデオ内の離散化されたタイムスタンプを表す特別なタイムトークン(テキストトークンのようなもの)で補強しています。

視覚的な入力があれば、Vid2Seqモデルはテキストとタイムトークンの並びを入力として受け取り、生成することができます。これによりVid2Seqモデルは、単一のトークンの並びとして投じられた音声入力の時間情報を理解することが可能になります。そして、Vid2Seqは単一のトークンの並びを生成しながら、時間に基づいてビデオの密なイベントキャプションを予測する事ができます。

3.Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)関連リンク

1)ai.googleblog.com
Vid2Seq: a pretrained visual language model for describing multi-event videos

2)arxiv.org
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

3)github.com
scenic/scenic/projects/vid2seq/

タイトルとURLをコピーしました