教師無し学習で物体の動きを追跡する人工知能を学習させる

１．教師無し学習で物体の動きを追跡する人工知能を学習させるまとめ

・動画の色を利用して動画内の物体の動きを追跡する学習法をGoogleが公開
・白黒化した動画を再カラー化させる作業を行わせる事で同時に物体追跡もできるようになった
・ラベル付き動画や教師役が不要なためスケーラブルな学習も将来的に可能に

２．色を追跡させる事で人工知能は物体の動きも追跡できるようになった

動画内の物体を追跡する事はコンピューターヴィジョン研究での根本的な課題であり、動きの検出や物体の相互作用、動画の演出効果などを扱うアプリケーションにとって不可欠な要素です。

しかしながら、機械に視覚的に物体を追跡するように教えるのはチャレンジングな課題です。学習には大量の説明ラベル付き動画が必要であり、大規模に学習をさせるのは現実的には困難です。

論文「Tracking Emerges by Colorizing Videos」では、白黒動画をカラー化する畳み込みネットワークを使った例を紹介します。単一のフレーム（動画から画像を一枚だけ切り出したもの）を指定しそこから色をコピーするように制約を設けます。すると、ニューラルネットワークは教師なしに視覚的に動画内の物体を追跡するようになりました。

重要な事は、学習モデルは物体追跡用途で学習をしていないにも関わらず、複数の物体を追跡する事ができた事です。ラベル付けされた動画データを学習に使用せずとも追跡に邪魔な物体をスルーし、形状の変化にも惑わされない頑強性を示しました。

学術利用可能なオープンデータセット、DAVIS 2017を用いた例。カラー化を学習させた後、人工知能は教師無しにも関わらず、自動で動画内の物体を追跡する事ができるようになりました。我々は最初のフレームで色を示すべき領域を指定したのみです。ニューラルネットワークは、追跡用の学習や教師なしに、それを後続のフレームに対しても適用する事ができました。

ビデオの色を再現する事を学習する

Googleは、色の時間的な一貫性が、人工知能が動画内の物体を追跡するための大規模な訓練データを提供するという仮説をたてました。光の点灯など、色が時間的にまとまりなく変化してしまう例外ケースはありますが、一般的には色は時間の経過に対して安定しています。

更に、ほとんどの動画には色が含まれているため、大規模な自己教師型学習のためのデータとして使用可能です。我々は動画から色を一旦削除し、複数の同じ色のオブジェクトを区別するために再カラー化します。この再カラー化により、人工知能に追跡すべき特定のオブジェクトや領域を教える事ができます。

Googleはシステムを学習させるために、Kineticsの動画データセットを使用しています。これは日常の活動を描写した大規模な公開ビデオコレクションです。最初のフレームを除く、全ての動画をグレースケール化し、次のフレームの元の色を予測するように畳み込みネットワークを訓練します。

元の色を正確に復元するためには、人工知能は領域を正確に学ぶ必要があると我々は期待しました。私たちが注目した事は、オブジェクトに色を付けるためにオブジェクトの動きを追跡する事が、オブジェクト追跡を自動で学ぶことに繋がるかどうかです。

モデルは入力として1つのカラーフレームと白黒化されたビデオを受け取り、残りのビデオの色を予測します。モデルは、参照フレームから色をコピーすることを学習します。これにより、人間の監督なしで物体を追跡するための仕組みが可能になります。

単一の参照フレームから色をコピーすることを学ぶには、色をコピーすべき正しい領域を適切に学習する必要があります。これにより、モデルに物体追跡に使用できる明示的なメカニズムを強制的に学習させる事ができます。ビデオカラー化モデルがどのように機能するかを確認するため、以下のKineticsデータセットを用いた例を示します。

ネットワークは現実世界の色合いを知らないまま訓練されますが、私たちのモデルはビデオの最初のフレームで指定された視覚的な領域を追跡することができます。オブジェクトの輪郭もビデオ内の単一の点も追跡できます。唯一変更しているたのは、ビデオ全体に色を塗るのではなく、追跡領域のみをカラー化したということです。

追跡機能の解析

今回作成した人工知能は大量のラベルなしのビデオで訓練されているため、人工知能が何をどうやって学んだかについての洞察を得たいと思いました。以下のビデオでは、主成分分析（PCA）を使用して３次元に分解し、RGBムービーとしてプロットすると言う標準的な手法で、モデルが学習した内容を視覚化しました。結果、人工知能は、変形や視点の変化に対しても、オブジェクトの同一性を認識できていることが示されました。

上の行：DAVIS 2017データセットのビデオ。下の行：カラー化モデルの内部表現を視覚化。人工知能の内部で同類と認識されると似た色を有する事になります。これは、学習がオブジェクトの同一性を認識してピクセルをグループ化していることを示唆しています。

ポーズを追跡する

モデルは、最初のフレームでキーポイントが与えられた人間の姿勢も追跡できることがわかりました。以下に人間の関節骨格を追跡できるオープンな学術データセットJHMDBで試した結果を示します。

モデルを使用して人間の骨格の動きを追跡する例

この場合、入力は最初のフレームの人間の姿勢であり、その後の動きは自動的に追跡されます。モデルは、この追跡作業のための訓練はされていませんが、人間の姿勢を追跡することができました。

私たちまだ高度な教師付き学習モデルよりも優れたパフォーマンスを出せたわけではありませんが、今回のカラー化動画追跡モデルはoptical flow(2つの画像間で各点がどう動いたのかに着目する手法)をベースにした最新の方法を上回っています。私たちのモデルは、劇的に動く背景、高速な動き、障害物など、多くの自然な複雑についてoptical flowよりも堅牢に追跡する事ができます。詳細は論文をご覧ください。

今後の仕事

我々の結果は、ビデオのカラー化が、ビデオ内のオブジェクトを追跡するための教師なし学習に使用できることを示しています。さらに、私たちのシステムの失敗はビデオのカラー化の失敗と相関していることがわかりました。これは、ビデオのカラー化モデルをさらに改善すれば、自己監視トラッキングの進化させる事ができることを示しています。