動画用ニューラルネットワークを自動で探索する試み(1/3)

１．動画用ニューラルネットワークを自動で探索する試み(1/3)まとめ

・現在動画用のモデルは通常既存の画像用モデルなどを元に手動で拡張設計されている
・動画用モデルは時空間情報を扱うためAutoMLのような自動化アプローチが困難
・この課題に挑戦する3つの異なるニューラルアーキテクチャ進化アルゴリズムを開発

２．動画用のニューラルアーキテクチャ探索

以下、ai.googleblog.comより「Video Architecture Search」の意訳です。元記事の投稿は2019年10月17日、Michael S. RyooさんとAJ Piergiovanniさんによる投稿です。

ビデオを理解する事は難しい問題です。ビデオには時間と空間のデータが含まれているため、「外観」と「動き」の両方の情報を抽象化するために、それらの特徴表現を捉える必要があります。これは、ビデオの分類や動画内の動きの認識など、ビデオに映っている内容の意味を自動的に理解するために不可欠なだけでなく、ロボットの認識と学習にとっても重要です。

人間と同様に、ロボットがカメラから受け取る映像入力が静止した状態のままである事はめったになく、何らかの動きがある連続した動画として入力を受け取ります。

今日のディープラーニングモデルの能力は、そのニューラルアーキテクチャー(モデルの構造)に大きく依存しています。

ビデオ用の畳み込みニューラルネットワーク(CNN)は、通常、InceptionやResNetなどの既知の二次元データ用アーキテクチャを手動で三次元に拡張するか、外観と動きの両方の情報を融合する2ストリームCNNアーキテクチャを慎重に設計することによって構築されます。

ただし、ビデオの時空間情報を最大限に活用するために最適なビデオ用アーキテクチャを設計することは、未解決の問題のままです。

優れたアーキテクチャを発見するためのニューラルアーキテクチャ探索(Zoph等やReal等による研究、AutoMLなど)が画像について広く検討されてきましたが、ビデオ用に自動で最適化されたニューラルアーキテクチャはまだ開発されていません。ビデオCNNは通常、計算機資源とメモリ資源を集中的に使用するため、固有の性質を留めたまま効率的にアーキテクチャを探索する手法を採用する事は困難です。

これらの課題に応えるために、ビデオを理解するためのより最適なネットワークアーキテクチャの自動検索に関する一連の調査を実施しました。以下では、3つの異なるニューラルアーキテクチャ進化アルゴリズムを紹介します。

(1)EvaNet
レイヤーとそのモジュール構成を学習します

(2)AssembleNet
マルチストリーム接続を学習します。

(3)TinyVideoNet
計算効率が高いコンパクトなネットワークを構築します。

私達が開発したビデオ探索アーキテクチャは、複数のパブリックデータセットで既存の手で設計したモデルを大幅に上回るパフォーマンスを発揮し、ネットワークランタイムが10倍から100倍向上しました。

EvaNet：進化アルゴリズムによって構築された初のビデオ用アーキテクチャ

ICCV 2019の論文「Evolving Space-Time Neural Architectures for Videos」で紹介するEvaNetは、ビデオ用アーキテクチャを自動で構築するニューラルアーキテクチャ探索を設計する最初の試みです。

EvaNetはモジュールレベルのアーキテクチャ検索であり、時空間畳み込み層(spatio-temporal convolutional layers)の種類とそれらの最適な順次または並列構成を見つけることに焦点を当てています。

進化的アルゴリズムと突然変異操作(mutation operators)が探索に使用され、アーキテクチャの母集団が繰り返し更新されます。これにより、検索空間の並行かつ効率的な探索が可能になります。これは、ビデオアーキテクチャ検索が様々な時空間層とその組み合わせを考慮するために必要です。

EvaNetは、複数のモジュールを(ネットワーク内の異なる場所で)を進化させて、異なるアーキテクチャを生成します。