MMCC:ラベル付けされていない動画から将来を予測する(1/2)

１．MMCC:ラベル付けされていない動画から将来を予測する(1/2)まとめ

・AIが次にどのように行動すべきかを計画できるようになるためには未来予測が必要
・そのために意味のある変化が時間の経過とともにどのように展開するか知る必要がある
・MMCCは状況に応じて任意の時間間隔で未来を予測する事が可能な新モデル

２．MMCCとは？

以下、ai.googleblog.comより「Making Better Future Predictions by Watching Unlabeled Videos」の意訳です。元記事は2021年11月11日、Dave EpsteinさんとChen Sunさんによる投稿です。

同様な研究はVideoBERTやTCCがありますが、これらをマルチモーダル対応にした感じでしょうか。

アイキャッチ画像のクレジットはPhoto by Icons8 Team on Unsplash

機械学習(ML:Machine learning)エージェントは、意思決定や人々の日常生活を支援するために、実社会での導入が進んでいます。

様々な時間間隔で未来を合理的に予測することは、このようなエージェントにとって最も重要な能力の一つです。なぜなら、他のエージェントの行動を含めた周囲世界の変化を予測し、次にどのように行動すべきかを計画できるからです。

重要な事は、未来予測を成功させるためには、環境における意味のある変化(例えば、生地がパンに変わる)を捉えることと、意思決定のために時間の経過とともに変化がどのように展開するかに適応する事です。

視覚的観察からの未来予測をする従来の研究は、その出力の形式(画像を表す画素など)や、手動で定義された人間の行動のセット(誰かが歩き続けるか、座るか、ジャンプするかを予測するなど)に制約を持つ事がほとんどでした。

これらは、細かすぎて予測が難しいか、現実世界の豊かさに関する重要な情報が欠けています。例えば、「人がジャンプする」と予測しても、なぜジャンプするのか、何にジャンプするのか、などは把握できません。また、これまでのモデルは、ごく少数の例外を除いて、未来の一定のオフセットで予測を行うように設計されていましたが、意味のある未来の状態がいつ起こるかはほとんどわからないため、これは限界のある仮定です。

これらは、細かすぎて予測が難しいか、現実世界の多くの重要な情報が欠けています。例えば、「人がジャンプする」と予測しても、「なぜジャンプするのか？」「何に向かってジャンプするのか？」などは把握できません。また、これまでのモデルは、ごく少数の例外を除いて、一定間隔後の未来に対して予測を行うように設計されていました。しかし、意味のある状態変化が将来のいつ起こるかはほとんどわからないため、これは限界のある仮定です。

例えば、アイスクリームを作る動画(下図)では、「クリーム」から「アイスクリーム」への意味のある変化が35秒かけて起こるので、このような変化を予測するモデルは35秒先を見る必要があります。しかし、この時間間隔は、行動や映像によって大きく異なり、意味のある遷移はどのような間隔の未来でも発生しえます。

予測を柔軟な間隔で行うように学習することは、望ましい真実の状態遷移が比較的曖昧である可能性があるため、困難です。例えば、正しい予測は、機械の中でかき混ぜられたばかりのアイスクリームであったり、ボウルの中のひとすくいのアイスクリームであったりします。

そして、このようなデータに注釈を大量に付与することは(数百万の動画をフレーム単位で注釈付けすること)、実現不可能です。

しかし、既存の教育ビデオの多くには、音声による説明が付属しており、ビデオ全体を通して簡潔で一般的な説明がなされていることが多いです。このようなデータは、モデルの注意をビデオの重要な部分に向けさせることができるため、手動でラベリングを行う必要がなく、データに基づいて柔軟に未来を定義することができます。

ICCV 2021で発表された「Learning Temporal Dynamics from Cycles in Narrated Video」では、多様な人間の行動を記録した最近の大規模なラベルなしデータセットを用いて、自己教師化されたアプローチを提案しています。

このモデルは、高い抽象度で動作し、任意の遠い未来まで予測することができ、どのくらい先まで予測するかを文脈に基づいて選択することができます。マルチモーダル・サイクル・コンシステンシー(MMCC:Multi-Modal Cycle Consistency)と名付けられたこのモデルは、ナレーション付きの教育ビデオを活用して、未来の強力な予測モデルを学習します。私たちは、MMCCを微調整なしでさまざまな困難なタスクに適用できることを実証し、その予測を定性的に検証しました。下の例では、MMCCは、関連性の低い潜在的な未来(b)や(c)ではなく、現在のフレーム(a)から未来(d)を予測しています。

この研究では、視覚と言語からの手がかりを用いて、動画内の高レベルの変化(クリームがアイスクリームになるなど)を予測しています。(HowTo100Mの動画より)

動画をグラフ化

私たちの手法の基本は、ナレーション付きのビデオをグラフとして表現することです。
ここでいうノードは、ニューラルネットワークによってエンコードされたビデオフレーム(1秒間に1フレームでサンプリングされたもの)またはナレーションテキストの断片(自動音声認識システムで抽出されたもの)のことです。

学習の際、MMCCはノードからグラフを構築し、同じ状態を示すビデオフレームとテキストセグメントを結ぶクロスモーダルエッジと、現在(例：ストロベリー味のクリーム)と未来(例：ソフトクリーム)を結ぶ時間的エッジを用います。時間的なエッジは、両方のモダリティで同じように動作します。

つまり、ビデオフレーム、テキスト、またはその両方から始まり、どちらの入力方式でも未来(または過去)の状態に接続することができます。MMCCは、フレームとテキストで共有される潜在的な特徴表現を学習し、この表現空間で予測を行うことでこれを実現しています。

マルチモーダル・サイクル・コンシステンシー

クロスモーダルで時間的なエッジ関数を教師なしで学習するために、我々はサイクル一貫性(cycle consistency)のアイデアを適用します。ここで、サイクル一貫性とは、サイクルグラフの構築を意味しており、モデルは、最初のノードから他のノードへ、また戻ってくる一連のエッジを構築します。

開始ノード(例：ビデオフレームのサンプル)が与えられた場合、モデルはそのクロスモーダルな対応物(例：フレームを説明するテキスト)を見つけ、それらを現在の状態として結合することが期待されます。

これを実現するために、モデルは学習開始時に、同じタイムスタンプを持つフレームとテキストが対応関係にあると仮定しますが、後にこの仮定を緩和します。そして、モデルは将来の状態を予測し、その予測に最も近いノードを選択します。最後に、モデルは未来のノードから現在の状態を逆に予測することで、未来のノードを開始ノードに戻すことで、上記のステップを反転させようとします。