Loss-Conditional Training:損失関数を改良してモデルのバリエーションを統合(2/2)

１．Loss-Conditional Training:損失関数を改良してモデルのバリエーションを統合(2/2)まとめ

・学習ベースの画像圧縮に応用すると圧縮率と画像品質を係数で調整する事ができる
・スタイル転送に応用すると元画像との類似性や各スタイルの適用度合いを調整できる
・loss-conditional trainingを使うと個別のネットワークを単一のネットワークに統合可能

２．Loss-Conditional Trainingとは？

以下、ai.googleblog.comより「Optimizing Multiple Loss Functions with Loss-Conditional Training」の意訳です。元記事の投稿は2020年4月27日、Alexey Dosovitskiyさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Kevin McCutcheon on Unsplash

アプリケーション：可変レートの画像圧縮
私達のアプローチの最初の実例として、機械学習モデルを使って画像の圧縮をおこなう「学習ベースの画像圧縮(learned image compression)」に対する応用例を示します。

画像を圧縮するとき、ユーザーは画像品質と圧縮率の間の望ましいトレードオフを選択できる必要があります。従来の画像圧縮アルゴリズムは、この選択を可能にするように設計されています。

しかし、多くの主要なlearned image compression手法では、そのようなトレードオフ毎に個別のモデルをトレーニングする必要があり、トレーニング時と推論時の両方で計算コストがかかります。このような様々な損失に対して個々のモデルを最適化して維持する必要がある場合、今回の手法は、非効率性を回避し、全てのトレードオフを単一のモデルでカバーする簡単な方法を提供します。

Balle等が発表したlearned image compressionモデルにloss-conditional training手法を適用しました。ここでの損失関数は、2つの項で構成されます。1つは、画質に関与する再構成項であり、もう1つは、圧縮率に関与するコンパクト項です。

以下に示すように、この手法では、幅広い品質圧縮のトレードオフをカバーする単一のモデルをトレーニングできます。

単一のモデルによる様々な品質の画像圧縮
全てのアニメーションは、単一モデルの調整値を変化させる事で生成されています。

アプリケーション：調整可能なスタイル転送
私たちが示す2番目のアプリケーションは、芸術作品のスタイルの転送です。このアプリケーションは、1つの画像のコンテンツと別の画像のスタイルを併合することで画像を合成します。
(訳注：ゴッホの絵からゴッホの特徴を抽出してゴッホっぽい画像を作り出す事などが有名です)

最近の方法では、リアルタイムで複数のスタイルを使って画像にスタイルを設定するディープネットワークをトレーニングできます。しかし、従来の手法では、ユーザーが合成した出力の詳細を制御することはできません。

例えば、画像のスタイル効果をどの程度適用するか、どのスタイルを重視するかなどの調整は出来ず、出力結果がユーザーにとって魅力的でない場合は、好みのスタイルが得られるまで、異なるハイパーパラメーターを使用して複数のモデルを何度もトレーニングしなおす必要があります。

代わりに、提案された方法では、幅広いスタイルのバリエーションをカバーする単一のモデルをトレーニングできます。

本タスクでは、コンテンツ損失1つとスタイル化損失4つ、合計5つの損失項に対応する係数を持つ損失関数でモデルを調整しました。

直感的には、コンテンツ損失はスタイル化された画像が元のコンテンツにどれだけ類似するかを調整しており、4つのスタイル化損失は、どのスタイルが最終的にスタイル化された画像にどのくらい引き継がれるかを定義します。

以下に、これら全ての係数を変化させたときの画像の変化を示します。これらは全て単一モデルの出力です。

調整可能なスタイル転送
全てのスタイル設定は、単一のネットワークの調整値を変更するだけで生成できます。

明らかに、モデルは、スタイルの程度、画像に追加される要素のタイプ、正確な構成と位置など、各スタイル内の多くのバリエーションを捕捉できています。その他の例は、sites.google.comをご覧ください。インタラクティブなデモも公開されています。

まとめ
loss-conditional trainingを提案しました。これは、従来は個別にトレーニングした大規模ネットワークが必要であったタスクを、単一のディープネットワークを一度トレーニングするだけで実行可能にするシンプルで一般化可能な手法です。

画像圧縮とスタイル転送への応用例を示しましたが、さらに多くの応用が可能です。損失関数が調整に利用できる係数を持つ場合はいつでも、本手法により、より広い範囲をカバーする単一のモデルをトレーニングできます。

謝辞
このブログ投稿では、Google Brainチームの複数の研究者による研究を取り上げています。
Mohammad Babaeizadeh, Johannes Balle, Josip Djolonga, Alexey Dosovitskiy そして Golnaz Ghiasi、このブログの投稿は、彼らからの重要な貢献なしには成り立ちません。
イラストにはMS-COCOデータセットとunsplash.comからの画像を使用しています。