VideoBERT：ビデオ内の画像と音声を組み合わせて学習(2/3)

１．VideoBERT：ビデオ内の画像と音声を組み合わせて学習(2/3)まとめ

・ビデオ内の画像とテキストを組み合わせたクロスモーダルな文章を元にVideoBERTを学習させた
・VideoBERTを、料理、ガーデニング、車両修理など、100万を超える教育ビデオでトレーニングした
・これにより「テキストの内容から映像を予測」と「映像から次に写される映像を予測」する事ができた

２．VideoBERTの定性的評価

以下、ai.googleblog.comより「Learning Cross-Modal Temporal Representations from Unlabeled Videos」の意訳です。元記事は2019年9月11日、Chen SunさんとCordelia Schmidさんによる投稿です。しかし、忍耐、忍耐等のおおよそ関係ないゴミ情報がおそらくは大量に混ざっていてもここまで画像と音声の関係性を学習出来てしまうものなのでしょうか、おそるべし、VideoBERT。

ビデオ用のBERTモデル
特徴表現学習の最初のステップは、ラベル付けされていない長いビデオから時間的変遷とクロスモーダルなセマンティック対応(訳注：つまり、テキストと画像と言う２つの交じり合う計測手段間の意味的な関連付け)をモデルに学習させる代替タスクを定義することです。

この目的のために、BERT(Bidirectional Encoder Representations from Transformers:トランスフォーマーからの双方向エンコーダー特徴表現)モデルを一般化します。

BERTモデルは、Transformerアーキテクチャを適用して長い連続する文章をエンコードし、大量のテキストを含むコーパスで事前トレーニングすることにより、さまざまな自然言語処理タスクで最先端のパフォーマンスを示しています。

BERTは代替タスクとしてクローズテスト(cloze test)を使用します。このテストでは、BERTモデルは、連続する文書内で次に来る単語を予測する事だけでなく、文脈からから欠落している単語を双方向で予測します。

これを行うために、BERTのトレーニング目標を一般化し、ビデオ内の画像フレームと同じ場所の音声をASRで出力させたテキストを使用して、「クロスモーダルな文章」を作成します。

画像フレームは、視覚的特徴の類似性に基づいて、持続時間が1.5秒のヴィジュアルトークンに変換されます。次に、ヴィジュアルトークンをASRが出力したASRワードトークンと連結します。

VideoBERTモデルをトレーニングして、「クロスモーダルな文章」に欠落しているトークンを埋めます。私達ちの実験がサポートしている仮説は、この代替タスクの事前トレーニングにより、モデルがより長い時間的変遷(visual cloze)と高レベルな意味(visual-text cloze)について推論する事を学習できるいうものです。

一部分が隠されたビデオとテキストを使った予測タスク、またはclozeタスク実施時のVideoBERTの図。下部：ビデオ内の同時刻の画像とテキスト(ASR)トークンが連結され、VideoBERTへの入力が形成されます。一部の画像トークンおよびテキストトークンは隠されます。中部：VideoBERTはTransformerアーキテクチャを適用して、双方向のビジュアルとテキストを同時に使ってエンコードします。黄色とピンク色のボックスは、それぞれ入力と出力のembeddingsに対応しています。上部：トレーニングの目的は、マスクされた場所の正しいトークンを回復することです。

VideoBERTモデルの評価
私達はVideoBERTを、料理、ガーデニング、車両修理など、100万を超える教育ビデオでトレーニングしました。トレーニングが完了した後、VideoBERTモデルが多くのタスクで学習した内容を調べれば、出力がビデオコンテンツを正確に反映していることを確認できます。

例えば、text-to-video prediction(テキストからビデオを予測)を実行して、ビデオから一連の解説(レシピなど)を自動的に生成し、各ステップで説明されている内容を反映するビデオを生成できます。更に、video-to-video prediction(ビデオ間予測)を使用して、最初に与えたビデオに基づいて、次に写される可能性があるビデオコンテンツを視覚化できます。

クッキングビデオによって事前トレーニングをしたVideoBERTの定性的評価。上段：いくつかのレシピテキストが与えられると、連続した画像を生成する事ができます。下段：画像が与えられた際に、VideoBERTが予測した上位3つの将来の画像を示します。この場合、VideoBERTは、小麦粉とココアパウダーのボウルがオーブンで焼かれ、ブラウニーやカップケーキになる可能性があると予測しています。厳密にはVideoBERTが予測するのはヴィジュアルトークンですが、上記の例では特徴表現空間のヴィジュアルトークンに最も近いトレーニングセットの画像を使用して、トークンを視覚化しています。