VideoBERT：ビデオ内の画像と音声を組み合わせて学習(1/3)

１．VideoBERT：ビデオ内の画像と音声を組み合わせて学習(1/3)まとめ

・機械学習で動画内でどのような活動が行われているのかを認識させるのは困難
・従来手法では細かくラベル付けされた大量の動画が必要になるがこれは高価
・動画内の音声は画像と関連してオブジェクトやイベントを表現していると言う洞察を利用

２．クロスモーダル学習とは？

以下、ai.googleblog.comより「Learning Cross-Modal Temporal Representations from Unlabeled Videos」の意訳です。元記事は2019年9月11日、Chen SunさんとCordelia Schmidさんによる投稿です。

人間は動画内でどのような活動が行われているのかを簡単に認識し、次に何が起こるかを予測することができますが、機械にとっては非常に困難です。

それでも、自動運転車実現のために時間的行動の局所化、アクション検出、ナビゲーションなどのためにビデオの内容と変遷を理解することが、ますます重要になっています。

このようなタスクを実行するようにニューラルネットワークをトレーニングするには、フレーム毎に人間が細心の注意を払ってビデオに内容を説明するラベル付けを行ってトレーニングデータを作成し、そのデータを用いて学習する、教師あり学習が一般的です。しかし、このようなラベルを大規模データに付与する事は困難です。

その結果、モデルを様々な代替タスクでトレーニングする事が可能な自己教師学習は大きな関心を集めています。自己教師学習の教師はデータ自体に自然に存在します。

論文「VideoBERT: A Joint Model for Video and Language Representation Learning」(VideoBERT)および「Contrastive Bidirectional Transformer for Temporal Representation Learning」(CBT)では、ラベルのないビデオから時間的特徴表現を学習する事を提案します。

目標は、長時間の動画からアクションとイベントに対応する高レベルの意味ある特徴を発見することです。これを達成するために、私達は「人間の言語」が単語を進化させて高レベルのオブジェクトとイベントを記述しているという重要な洞察を活用しました。

ビデオ内では、音声は視覚信号と時間的に整列する傾向があります。音声は市販の自動音声認識(ASR)システムを使用して抽出できるため、自然な自己教師信号を提供します。このモデルは、トレーニング中に視覚および音声(スピーチ)と言う複数のモダリティ(計測手段)からの信号を共同で使用するため、クロスモーダル学習の例です。

同じ再生位置の画像フレームと人間の音声は、多くの場合、意味的に整列されています。この並びは網羅的ではなく、ノイズが多い場合があります。これを、より大きなデータセットの事前トレーニングにより軽減したいと考えています。左の動画場合、ASRの出力は「しっかりと回転させ、空気を横に押し出せば、少し引っ張ることができます。」です。人間の行動は音声で捕捉できていますが、対象は捕捉されていません。右の例の場合、ASRの出力は「ここは貴方が忍耐を見せる場面です。忍耐、忍耐」です。視覚的なコンテンツと音声の間に関連性は全くありません。