MV-GPT：動画に説明文を自動で付与するための新手法(2/2)

１．MV-GPT：動画に説明文を自動で付与するための新手法(2/2)まとめ

・MV-GPTはマルチモーダル事前キャプションで従来モデルを大きく上回る事を実証した
・MV-GPTはVideoQA、テキスト-ビデオ検索、行動分類など、ビデオ理解タスクでも有用
・MV-GPTはラベル付けされていない動画からエンコーダとデコーダを共同で事前学習可能

２．MV-GPTの性能

以下、ai.googleblog.comより「End-to-end Generative Pre-training for Multimodal Video Captioning」の意訳です。元記事は2022年6月7日、Paul Hongsuck SeoさんとArsha Nagraniさんによる投稿です。

アイキャッチ画像のクレジットはDALL·E Miniでプロンプトは「Illustration of a cat happy to see the video and understand the content」

マルチモーダルビデオキャプションにおける結果

MV-GPTと、同じモデルアーキテクチャを用いた既存の事前学習損失を、標準的な評価指標(Bleu-4、Cider、Meteor、Rouge-L)を用いてYouCook2上で比較した結果、MV-GPTが最も優れていることが分かりました。

すべての事前学習技術は自然言語の説明文(キャプション)付与のパフォーマンスを向上させますが、モデルパフォーマンスを向上させるためには、デコーダを共同で事前学習することが重要です。MV-GPTは、4つの評価指標すべてにおいて相対的に向上し、従来の最先端の共同事前学習法を3.5%以上上回ることを実証します。

Pre-training Loss	Pre-trained Parts	Bleu-4	Cider	Meteor	Rouge-L
No Pre-training	N/A	13.25	1.03	17.56	35.48
CoMVT	Encoder	14.46	1.24	18.46	37.17
UniVL	Encoder + Decoder	19.95	1.98	25.27	46.81
MV-GPT (ours)	Encoder + Decoder	21.26	2.14	26.36	48.58

YouCook2において、事前学習損失を変えた4つの評価指標(Bleu-4、Cider、Meteor、Rouge-L)に対するMV-GPTの性能。「事前学習済み部分(Pre-trained parts)」とは、エンコーダのみ、あるいはエンコーダとデコーダの両方など、モデルのどの部分を事前学習したかを示しています。既存の手法の損失関数を再実装していますが、公平に比較するために、私たちのモデルと学習戦略を使用しています。

MV-GPTで事前学習したモデルを、YouCook2, MSR-VTT, ViTT, ActivityNet-Captionsという4種類のキャプションベンチマークに転移しました。私達のモデルは4つのベンチマーク全てにおいて、最先端のスコアを大幅に向上しました。例えば、Meteor指標では、MV-GPTは4つのベンチマークすべてにおいて12%以上の相対的な改善を示しています。

	YouCook2	MSR-VTT	ViTT	ActivityNet-Captions
Best Baseline	22.35	29.9	11	10.9
MV-GPT (ours)	27.09	38.66	26.75	12.31

4つのベンチマークで最良のMeteorスコアを出した手法とMV-GPTの比較

ビデオ理解タスクにおける結果

MV-GPTはキャプションを生成するマルチモーダルビデオキャプションモデルを学習するために設計されていますが、私たちの事前学習技術は、VideoQA、テキスト-ビデオ検索、行動分類など、複数のビデオ理解タスクに適用できる強力なマルチモーダルビデオエンコーダを学習することも分かりました。

MV-GPTから転移されたモデルを比較すると、5つのビデオ理解ベンチマークにおいて、その主要な指標を示しています。すなわち、VideoQAとアクション分類ベンチマークのtop1精度、検索ベンチマークでリコール@1で優れた性能を示しています。

Task	Benchmark	Best Comparable Baseline	MV-GPT
VideoQA	MSRVTT-QA	41.5	41.7
VideoQA	ActivityNet-QA	38.9	39.1
Text-Video Retrieval	MSR-VTT	33.7	37.3
Action Recognition	Kinetics-400	78.9	80.4
Action Recognition	Kinetics-600	80.6	82.4

5つのビデオ理解ベンチマークにおいて、MV-GPTと最良のスコアを出したモデルとの比較。各データセットについて、広く用いられている主要指標、すなわち、MSRVTT-QAとActivityNet-QAではtop1回答精度、MSR-VTTではリコール@1、そしてKineticsではtop1分類精度を比較しています。