MBT：動画における新しいモダリティ融合モデル(1/3)

１．MBT：動画における新しいモダリティ融合モデル(1/3)まとめ

・人は複数の感覚からの入力を通して世界と関わり情報を組み合わせる事が可能
・同様に複数の入力を取扱可能なモデルをマルチモーダルな機械学習モデルという
・MBTと呼ぶ動画におけるマルチモーダル融合のための新しいモデルを紹介

２．Multimodal Bottleneck Transformerとは？

以下、ai.googleblog.comより「Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion」の意訳です。元記事は2022年3月15日、Arsha Nagrani さんとChen Sunさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Andrew Seaman on Unsplash

人は複数の感覚からの入力(例えば、物を見る、音を聞く、言葉を読む、感触を感じる、味を感じるなど)を通して世界と関わり、情報を組み合わせ、感覚同士の関連付けを形成しています。

実世界のデータは、ビデオフレームとオーディオトラック、ウェブ画像とその説明文、教育用ビデオとその台本など、様々な信号が共存しているため、複数の入力を取扱可能なマルチモーダルな機械学習(ML:Machine Learning)モデルを構築・設計する際に同様の論理を適用するのは自然なことです。

効果的なマルチモーダルモデルの応用範囲は広いです。例えば、多言語画像検索、未来行動予測、視覚-言語ナビゲーションなどです。また、マルチモーダルモデルはいくつかの理由で重要です。

1つまたは複数のモダリティが欠落または破損している場合でも、パフォーマンスを発揮する堅牢性があります。

また、ある情報があるモダリティにしか存在しない可能性があるケースでも能力を発揮できるモダリティ間の相補性(complementarity)という考え方があります。これは、ある情報が一方のモダリティ(例えば音声データ)にのみ存在し、他方(例えば、ビデオフレーム)には存在しないという考えです。

後期融合(late fusion)と呼ばれる現在のマルチモーダル融合の主要なパラダイムは、それぞれのモダリティを符号化するために別々のモデルを使用し、最終段階でそれらの出力した特徴表現を単純に結合するものです。しかし、異なるモダリティからの情報を効果的かつ効率的に結合する方法の研究はまだそれほど活発ではありません。

NeurIPS 2021で発表された論文「Attention Bottlenecks for Multimodal Fusion」では、Multimodal Bottleneck Transformer(MBT)と呼ばれる、動画におけるマルチモーダル融合のための新しいtransformerベースのモデルを紹介します。

本モデルは、潜在ユニット間のクロスモーダルなattentionの流れを2つの方法で制限しています。

(1)密接な融合ボトルネックを通して、各モダリティの最も関連性の高い入力を収集・凝縮する(他のモダリティとは必要な情報のみを共有する)ようモデルを強制する

(2)クロスモーダルな融合はモデルの後半で行う事にし、初期のレイヤーは単一のモダリティからの情報に特化するようにする

この手法により、ビデオ分類タスクにおいて、マルチモーダルtransformerモデルを用いた場合と比較して、FLOPsを50%削減し、最先端のスコアを達成することを実証できました。また、私達のコードは、研究者がマルチモーダル融合研究を拡張する際に活用できるようなツールとして公開されています。