2019年4月時点のGANに関する未解決な問題(3/7)

１．2019年4月時点のGANに関する未解決な問題(3/7)まとめ

・GANを画像以外の領域に適用する試みは主に３分野で、文章、構造型データ、音声
・音声が最も有望な分野であるが、現時点ではまだ限定的な成功に留まっている
・GANが他の連続データで成功するためには暗黙の前提条件が必要になる可能性が高い

２．GANを画像以外の領域に適用するための条件

以下、distill.pubより「Open Questions about Generative Adversarial Networks」の意訳です。元記事は、2019年4月9日、Augustus Odenaさんによる投稿です。

GANを画像合成の枠を超えて活用するにはどうすればよいですか。

画像から画像へのスタイル変換や、領域Aで学習したモデルを領域Bで使用するドメイン適応などのアプリケーションは別とすれば、GANの成功の大部分は画像合成にあります。画像以外のGANを使用しようとする試みは、次の3つの領域に集中しています。

(1)テキスト
テキストの不連続性により、GANを適用することは困難です。
これは、GANが、ディスクリミネータからの信号を、生成されたコンテンツを通してジェネレータに逆伝播することに依存しているためです。

この問題に対処するには2つの方法があります。

1つ目は、論文「Improved training of wasserstein gans」のように、GANを離散データの連続する特徴表現に対してのみ機能させることです。2つ目は、実際の離散モデルを使用し、論文「SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient」のように勾配推定を使用してGANを訓練することです。もっと洗練された処理も他に存在しますが、私たちが知る限り、それらのどれもがperplexity(流暢さ)の観点から尤度ベースである言語モデルの競合となるレベルの結果を生成できていません。

(2)構造化データ
グラフなど、他の非ユークリッド構造化データについてはどうでしょうか？この種のデータの研究は幾何学的ディープラーニング(Geometric deep learning)と呼ばれます。
GANはこの分野では限られた成功しか収めていませんが、他のディープラーニングテクニックも同様なので、GANの側面がどれほど影響するかを見極めるのは困難です。

この分野でGANを使用する試みの1つに論文「NetGAN: Generating Graphs via Random Walks」があります。これは、元のグラフからサンプリングされたものに似せる事を意図してランダムウォークをジェネレータ(およびディスクリミネータの批評から)生成します。

(3)音声
音声は、GANが画像で謳歌する成功を達成する可能性が最も高い分野です。教師なし音声合成にGANを適用する最初の重大な試みは論文「Synthesizing Audio with Generative Adversarial Networks」で、音声にGANを適用するために著者が様々な特別な仕掛けをしていました。

より最近の研究の「GANSynth: Adversarial Neural Audio Synthesis」は、GANがいくつかの知覚的測定基準で自己回帰モデルよりも優れていることさえ示唆しています。

これらの様々な試みにもかかわらず、画像は明らかにGANにとって最も簡単な領域です。これは私達を第三の問いかけに導きます。

GANを非画像データに対してどのようにうまく機能させることができますか？GANを他の領域に拡張するには、新しいトレーニング手法が必要ですか？それとも、各領域に対してより適切な暗黙の前提条件が必要になるのでしょうか？

私達はGANが他の連続的なデータで最終的に画像合成レベルの成功を達成することを期待していますが、それにはより良い暗黙の前提条件が必要になるでしょう。

これらの前提条件を見つけるには、与えられた領域で何が理にかなっていて計算的に実行可能であるかについて慎重に考える必要があります。

構造化されたデータや連続していないデータについては、確信がありません。 1つのアプローチは、ジェネレータとディスクリミネータの両方を強化学習で訓練されたエージェントにすることです。このアプローチをうまく機能させるには、OpenAI Fiveのような大規模な計算リソースが必要になる可能性があります。

最後に、この問題は根本的な研究の進化を必要とするだけかもしれません。

[relLink]