MBT:動画における新しいモダリティ融合モデル(1/3)

モデル

1.MBT:動画における新しいモダリティ融合モデル(1/3)まとめ

・人は複数の感覚からの入力を通して世界と関わり情報を組み合わせる事が可能
・同様に複数の入力を取扱可能なモデルをマルチモーダルな機械学習モデルという
・MBTと呼ぶ動画におけるマルチモーダル融合のための新しいモデルを紹介

2.Multimodal Bottleneck Transformerとは?

以下、ai.googleblog.comより「Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion」の意訳です。元記事は2022年3月15日、Arsha Nagrani さんとChen Sunさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Andrew Seaman on Unsplash

人は複数の感覚からの入力(例えば、物を見る、音を聞く、言葉を読む、感触を感じる、味を感じるなど)を通して世界と関わり、情報を組み合わせ、感覚同士の関連付けを形成しています。

実世界のデータは、ビデオフレームとオーディオトラックウェブ画像とその説明文教育用ビデオとその台本など、様々な信号が共存しているため、複数の入力を取扱可能なマルチモーダルな機械学習(ML:Machine Learning)モデルを構築・設計する際に同様の論理を適用するのは自然なことです。

効果的なマルチモーダルモデルの応用範囲は広いです。例えば、多言語画像検索未来行動予測視覚-言語ナビゲーションなどです。また、マルチモーダルモデルはいくつかの理由で重要です。

1つまたは複数のモダリティが欠落または破損している場合でも、パフォーマンスを発揮する堅牢性があります。

また、ある情報があるモダリティにしか存在しない可能性があるケースでも能力を発揮できるモダリティ間の相補性(complementarity)という考え方があります。これは、ある情報が一方のモダリティ(例えば音声データ)にのみ存在し、他方(例えば、ビデオフレーム)には存在しないという考えです。

後期融合(late fusion)と呼ばれる現在のマルチモーダル融合の主要なパラダイムは、それぞれのモダリティを符号化するために別々のモデルを使用し、最終段階でそれらの出力した特徴表現を単純に結合するものです。しかし、異なるモダリティからの情報を効果的かつ効率的に結合する方法の研究はまだそれほど活発ではありません。

NeurIPS 2021で発表された論文「Attention Bottlenecks for Multimodal Fusion」では、Multimodal Bottleneck Transformer(MBT)と呼ばれる、動画におけるマルチモーダル融合のための新しいtransformerベースのモデルを紹介します。

本モデルは、潜在ユニット間のクロスモーダルなattentionの流れを2つの方法で制限しています。

(1)密接な融合ボトルネックを通して、各モダリティの最も関連性の高い入力を収集・凝縮する(他のモダリティとは必要な情報のみを共有する)ようモデルを強制する

(2)クロスモーダルな融合はモデルの後半で行う事にし、初期のレイヤーは単一のモダリティからの情報に特化するようにする

この手法により、ビデオ分類タスクにおいて、マルチモーダルtransformerモデルを用いた場合と比較して、FLOPsを50%削減し、最先端のスコアを達成することを実証できました。また、私達のコードは、研究者がマルチモーダル融合研究を拡張する際に活用できるようなツールとして公開されています。

素のマルチモーダルトランスフォーマーモデル

トランスフォーマーモデルは、ビデオ分類(ViViT)やオーディオ分類(AST)を含むMLタスクにおいて常に最先端の結果を得ています。

ViViTとASTは共にVision Transformer(ViT)をベースに構築されています。画像を画素単位で処理する標準的な畳み込みアプローチとは対照的に、ViTは画像をパッチトークン(複数の画素からなる画像の小さな断片(パッチ)のトークン)の並びとして扱います。

そして、これらのモデルは、パッチトークンのすべてのペアに渡ってself-attention操作を行います。しかし、マルチモーダル融合にtransformersを使用することは、計算コストが高く、入力データの長さに対して2次関数的に計算の複雑さが増大するため、困難です。

transformersは可変長データを効果的に処理できるので、ViTのような単一モーダルtransformersをマルチモーダルに拡張する最も簡単な方法は、視覚と聴覚の両方のトークンの並びをモデルに与えるように、transformersのアーキテクチャに最小限の変更を加えることです。

私たちはこれを素のマルチモーダル変換器モデル(vanilla multimodal transformer model)と呼び、画像中の異なる空間・時間領域間や、スペクトログラムで表される音声入力の周波数・時間間を自由に行き来できる(素のクロスアテンションと呼びます)ようにしています。

しかし、音声と映像の入力トークンを連結することで簡単に実装できますが、音声と映像の入力には緻密で細かい情報が含まれており、タスクにとって冗長になる可能性があるため、transformerモデルのすべての層で素のクロスアテンションは不要です。複雑さが増してしまいます。

3.MBT:動画における新しいモダリティ融合モデル(1/3)関連リンク

1)ai.googleblog.com
Multimodal Bottleneck Transformer (MBT): A New Model for Modality Fusion

2)arxiv.org
Attention Bottlenecks for Multimodal Fusion

3)github.com
scenic/scenic/projects/mbt/

タイトルとURLをコピーしました