2019年4月時点のGANに関する未解決な問題(6/7)

１．2019年4月時点のGANに関する未解決な問題(6/7)まとめ

・GANのトレーニングとバッチサイズがどのように連動するかは深く確かめられていない
・バッチサイズに連動するかどうかは勾配ノイズの割合が主要要因になる事が示唆されている
・Optimal Transport GANと非同期SGDが今後の研究対象として有望かおしれない

２．GANを評価する方法

以下、distill.pubより「Open Questions about Generative Adversarial Networks」の意訳です。元記事は、2019年4月9日、Augustus Odenaさんによる投稿です。

GANのトレーニングはバッチサイズとどのように連動しますか？

大規模なミニバッチは、画像分類モデルのスケールアップに役立ちました。大規模ミニバッチは、高度に並列化されたハードウェアアクセラレータを効果的に使用するために特に重要です。

これはまた、私達がGANをスケールアップするのを助けることができるでしょうか？一見したところ、答えはイエスであるべきであるように思えます – 結局のところ、ほとんどのGANのディスクリミネータは単なる画像分類器です。勾配ノイズがボトルネックになっている場合、バッチ数が多いとトレーニング速度は加速されます。

しかし、GANには分類器にない独自のボトルネックがあります。トレーニング手順が分岐する可能性があるのです。これは、私達を第６の問題に導きます。

GANのトレーニングはバッチサイズとどのように連動しますか？
GANのトレーニングに勾配ノイズはどのくらいの影響を与えますか？
GANのトレーニングをバッチサイズに合わせて拡張するように修正する事はできますか？

ミニバッチサイズを大きくすると、定量的に結果が改善され、トレーニング時間が短縮されるといういくつかの証拠があります。この現象がGANでも当てはまるなら、バッチサイズに連動するかどうかは、勾配ノイズの割合が主要要因になる事が示唆されます。しかし、これは体系的に研究されていないため、この質問は未解決のままです。

他のトレーニング手順を用いれば大きなバッチをより有効に活用できるでしょうか？Optimal Transport GANは、理論的には通常のGANよりも優れた収束特性を持ちますが、トレーニングデータのバッチを調整しようとするため、大きなバッチサイズが必要です。そのため、これは非常に大きなバッチサイズに拡張するための有望な候補のように見えます。

最後に、非同期SGDは、新しいハードウェアを利用するための優れた代替手段となる可能性があります。

非同期設定では、勾配の更新がパラメータの「古い」コピーで計算されることが制限要因となりがちです。しかし、GANは実際には過去のパラメータのスナップショットに関するトレーニングから恩恵を受けているように見えるため、非同期SGDがGANトレーニングと相互作用するかを問う事ができるでしょう。