1.MV-GPT:動画に説明文を自動で付与するための新手法(2/2)まとめ
・MV-GPTはマルチモーダル事前キャプションで従来モデルを大きく上回る事を実証した
・MV-GPTはVideoQA、テキスト-ビデオ検索、行動分類など、ビデオ理解タスクでも有用
・MV-GPTはラベル付けされていない動画からエンコーダとデコーダを共同で事前学習可能
2.MV-GPTの性能
以下、ai.googleblog.comより「End-to-end Generative Pre-training for Multimodal Video Captioning」の意訳です。元記事は2022年6月7日、Paul Hongsuck SeoさんとArsha Nagraniさんによる投稿です。
アイキャッチ画像のクレジットはDALL·E Miniでプロンプトは「Illustration of a cat happy to see the video and understand the content」
マルチモーダルビデオキャプションにおける結果
MV-GPTと、同じモデルアーキテクチャを用いた既存の事前学習損失を、標準的な評価指標(Bleu-4、Cider、Meteor、Rouge-L)を用いてYouCook2上で比較した結果、MV-GPTが最も優れていることが分かりました。
すべての事前学習技術は自然言語の説明文(キャプション)付与のパフォーマンスを向上させますが、モデルパフォーマンスを向上させるためには、デコーダを共同で事前学習することが重要です。MV-GPTは、4つの評価指標すべてにおいて相対的に向上し、従来の最先端の共同事前学習法を3.5%以上上回ることを実証します。
Pre-training Loss | Pre-trained Parts | Bleu-4 | Cider | Meteor | Rouge-L |
No Pre-training | N/A | 13.25 | 1.03 | 17.56 | 35.48 |
CoMVT | Encoder | 14.46 | 1.24 | 18.46 | 37.17 |
UniVL | Encoder + Decoder | 19.95 | 1.98 | 25.27 | 46.81 |
MV-GPT (ours) | Encoder + Decoder | 21.26 | 2.14 | 26.36 | 48.58 |
YouCook2において、事前学習損失を変えた4つの評価指標(Bleu-4、Cider、Meteor、Rouge-L)に対するMV-GPTの性能。「事前学習済み部分(Pre-trained parts)」とは、エンコーダのみ、あるいはエンコーダとデコーダの両方など、モデルのどの部分を事前学習したかを示しています。既存の手法の損失関数を再実装していますが、公平に比較するために、私たちのモデルと学習戦略を使用しています。
MV-GPTで事前学習したモデルを、YouCook2, MSR-VTT, ViTT, ActivityNet-Captionsという4種類のキャプションベンチマークに転移しました。私達のモデルは4つのベンチマーク全てにおいて、最先端のスコアを大幅に向上しました。例えば、Meteor指標では、MV-GPTは4つのベンチマークすべてにおいて12%以上の相対的な改善を示しています。
YouCook2 | MSR-VTT | ViTT | ActivityNet-Captions | |
Best Baseline | 22.35 | 29.9 | 11 | 10.9 |
MV-GPT (ours) | 27.09 | 38.66 | 26.75 | 12.31 |
4つのベンチマークで最良のMeteorスコアを出した手法とMV-GPTの比較
ビデオ理解タスクにおける結果
MV-GPTはキャプションを生成するマルチモーダルビデオキャプションモデルを学習するために設計されていますが、私たちの事前学習技術は、VideoQA、テキスト-ビデオ検索、行動分類など、複数のビデオ理解タスクに適用できる強力なマルチモーダルビデオエンコーダを学習することも分かりました。
MV-GPTから転移されたモデルを比較すると、5つのビデオ理解ベンチマークにおいて、その主要な指標を示しています。すなわち、VideoQAとアクション分類ベンチマークのtop1精度、検索ベンチマークでリコール@1で優れた性能を示しています。
Task | Benchmark | Best Comparable Baseline | MV-GPT |
VideoQA | MSRVTT-QA | 41.5 | 41.7 |
ActivityNet-QA | 38.9 | 39.1 | |
Text-Video Retrieval | MSR-VTT | 33.7 | 37.3 |
Action Recognition | Kinetics-400 | 78.9 | 80.4 |
Kinetics-600 | 80.6 | 82.4 |
5つのビデオ理解ベンチマークにおいて、MV-GPTと最良のスコアを出したモデルとの比較。各データセットについて、広く用いられている主要指標、すなわち、MSRVTT-QAとActivityNet-QAではtop1回答精度、MSR-VTTではリコール@1、そしてKineticsではtop1分類精度を比較しています。
まとめ
本稿では、マルチモーダルビデオキャプションのための新しい生成的事前学習フレームワークであるMV-GPTを紹介しました。
MV-GPTの双方向生成目標は、ラベル付けされていないビデオ内の異なる時間にサンプリングされた発話を使用することにより、マルチモーダルエンコーダとキャプションデコーダの事前学習を共同で行うことです。
この事前学習されたモデルは、複数のビデオキャプションベンチマークや他のビデオ理解タスク(VideoQA、ビデオ検索、行動分類)において、最先端の結果を達成しています。
謝辞
本研究は、Paul Hongsuck Seo、Arsha Nagrani、Anurag Arnab、Cordelia Schmidによって行われました。
3.MV-GPT:動画に説明文を自動で付与するための新手法(2/2)関連リンク
1)ai.googleblog.com
End-to-end Generative Pre-training for Multimodal Video Captioning
2)arxiv.org
End-to-end Generative Pretraining for Multimodal Video Captioning