MPNAS：写真も絵画も扱えるモデルを自動生成可能なニューラルアーキテクチャ探索(1/2)

１．MPNAS：写真も絵画も扱えるモデルを自動生成可能なニューラルアーキテクチャ探索(1/2)まとめ

・視覚タスクではデータ領域が写真や絵画などで異なる場合は別々にモデルを学習させる事が多い
・異なる領域を共同で学習させる試みはマルチドメイン学習と呼ばれるが設計が手動で手間になる
・マルチパスニューラルアーキテクチャ探索はマルチドメイン対応なモデルを自動発見する手法

２．MPNASとは？

以下、ai.googleblog.comより「Building Efficient Multiple Visual Domain Models with Multi-path Neural Architecture Search」の意訳です。元記事の投稿は2022年8月3日、Qifei WangさんとFeng Yangさんによる投稿です。

探索空間内に複数のNASがひしめいている様を表現したアイキャッチ画像のクレジットはPhoto by Food Photographer phototastyfood on Unsplash

視覚タスク(例えば、画像分類)用の深層学習モデルは、通常、単一の視覚ドメイン(例えば、「自然界を撮影した写真」や「コンピュータで生成したＣＧ」など)データで直接訓練されます。

通常、複数ドメインの視覚的タスクを実行するアプリケーションでは、個々のドメイン毎に複数のモデルを構築し、それらを独立して訓練し(ドメイン間でデータを共有しないことを意味します)、推論時に各モデルがドメイン固有の入力データを処理する必要があります。

しかし、これらのモデル間の初期レイヤーは、異なるドメインであっても類似した特徴表現を生成するため、複数のドメインを共同で学習する方が、応答時間や消費電力の低減、各モデルのパラメータを格納するためのメモリオーバーヘッドの低減など、より効率的です。

これはマルチドメイン学習(MDL:Multi-Domain Learning)と呼ばれるアプローチです。

さらに、MDLモデルは、ポジティブな知識転移によって単一ドメインモデルよりも優れた性能を発揮することができます。これは、あるドメインで学習を追加すると、別のドメインの性能が実際に向上することを意味します。一方、ネガティブな知識移転も、アプローチやドメインの組み合わせによっては起こり得ます。

MDLに関する過去の研究は、複数のドメインにまたがるタスクを共同で学習することの有効性を証明しましたが、それは手動で設計したモデルアーキテクチャを含んでおり、他の研究に適用するには非効率的です。

論文「Multi-path Neural Networks for On-device Multi-domain Visual Classification」では、以下のような汎用的なMDLモデルを提案します。

1)効率的に高精度を実現する(パラメータ数、FLOPSを低く抑えたままで)
2)ネガティブな知識転移を緩和しつつポジティブな知識転移を強化する学習を行う
3)様々なドメイン固有の困難さに対応しつつ効果的に結合モデルを最適化する

このような、複数ドメインに対応可能な混成ネットワークアーキテクチャを持つ統一的なモデルを構築するために、マルチパスニューラルアーキテクチャ探索(MPNAS:Multi-Path Neural Architecture Search)アプローチを提案します。

MPNASは、各ドメインの最適経路を共同で探索することにより、効率的なニューラルアーキテクチャ探索(NAS:Neural Architecture Search)アプローチを単一パス探索からマルチパス探索に拡張します。

また、ドメイン固有の困難に適応する「適応的バランスドメインプライオリティ(ABDP:Adaptive Balanced Domain Prioritization)」と呼ぶ新しい損失関数を導入し、効率的なモデルの学習を支援します。その結果、MPNASアプローチは効率的で規模拡大可能なものとなり、単一ドメインのアプローチと比較して、モデルサイズとFLOPSをそれぞれ78%と32%削減しながら性能を維持することに成功しました。

マルチパスニューラル・アーキテクチャ探索

ポジティブな知識転移を促し、ネガティブな知識転移を避けるため、従来の解決策では、ドメイン間で共有される特徴を学習するレイヤー(特徴表現抽出と呼びます)の大部分を共有し、その上にいくつかのドメイン固有のレイヤーを持つように、MDLモデルを構築しています。

しかし、このような均質な特徴抽出のアプローチでは、特徴表現が大きく異なるドメイン(例えば、自然画像中の物体と美術絵画内の物体など)を扱うことはできません。一方、MDLモデルごとに統一された異種アーキテクチャを設計することは、時間がかかる上に、ドメイン固有の知識が必要です。

NASは、深層学習アーキテクチャを自動的に設計するための強力なパラダイムです。NASは、最終的なモデルの一部となり得る様々な潜在的な土台からなる探索空間を定義します。探索アルゴリズムは、モデルの目的、例えば分類精度を最適化する最良の候補アーキテクチャを探索空間から見つけます。

最近のNASアプローチ(例：TuNAS)は、エンドツーエンドのパスサンプリングを用いることで探索効率を有意に向上させており、これによりNASを単一ドメインからMDLに拡張することが可能になっています。MPNASはTuNASからヒントを得て、探索と学習の2段階でMDLモデルのアーキテクチャを構築します。

探索段階では、各ドメインの最適パスを共同で見つけるために、MPNASは各ドメインに対して個別の強化学習(RL:Reinforcement Learning)コントローラを作成し、スーパーネットワークからエンドツーエンドのパス(つまり入力レイヤーから出力レイヤーまで)を抽出します。

スーパーネットワークは、探索空間で定義され、候補ノード間のすべての可能なサブネットワークのスーパーセットです。

複数回の繰り返しにより、全RL制御器は全ドメインにわたってRL報酬を最適化するようにパスを更新します。探索段階の最後に、各ドメインのサブネットワークが得られます。最後に、すべてのサブネットワークを結合して、以下に示すMDLモデルの混成アーキテクチャを構築します。

各ドメインのサブネットワークは独立して探索されるため、各レイヤーの土台は、複数のドメインで共有される場合(すなわち濃い灰色のノード)、単一のドメインで使用される場合(すなわち薄い灰色のノード)、どのサブネットワークでも使用されない場合(すなわち点線のノード)、があります。
また、各ドメインのパスは、探索中に任意のレイヤーをスキップすることができます。サブネットワークが性能を最適化するようにパスに沿って使用するブロックを自由に選択できるため(言い換えれば、どのレイヤーが共通でどのレイヤーがドメイン固有かを指定していないので)、出力ネットワークは不均質(heterogeneous)で効率的です。