ディープラーニングコースを受講した生徒からの興味深い質問(4/4)

１．ディープラーニングコースを受講した生徒からの興味深い質問(4/4)まとめ

・パラメータ数は相関且つ冗長なためモデル容量の目安として最適ではない
・モデル容量は一般化に関連するがDNNを把握するための概念ではなさそう
・専門家以外の人に、AGIが「実体」ではないことを説明するのは難しい

２．二重降下現象とモデル容量

以下、kyunghyuncho.meより「A few QA’s from the course F’20 <Deep Learning>」の意訳です。元記事の投稿は2020年12月7日、kyunghyun choさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by NeONBRAND on Unsplash

６．内積注意の定義

内積注意(dot product attention)のソフトマックスへの入力を次元の平方根で割るのはなぜですか？

この質問は、授業時間内に行われ、Richard Pang(ティーチング・アシスタントの一人)と私は、transformersの内積注意の背後にある動機を解析しようとしました。

各キーベクトル\(k \in \mathbb{R}^d\)が、多変量の標準正規分布から抽出されたサンプルであると仮定します。
つまり、\(k_i \sim \mathcal{N}(0, 1^2)\)

クエリベクトル\(q \in \mathbb{R}^d\)が与えられると、クエリとキーベクトル間の内積の分散を

\(\mathbb{V}[q^\top k] = \mathbb{V}[\sum_{i=1}^d q_i k_i] = \sum_{i=1}^d q_i^2 \mathbb{V}[k_i] = \sum_{i=1}^d q_i^2\)

として計算できます。

言い換えると、各ロジットの分散は、クエリベクトルの距離(squared norm)です。

クエリベクトルqも多変量の標準正規分布から抽出されたサンプルであると仮定します。

\(q_i \sim \mathcal{N}(0, 1^2)\)

言い換えると、
\(\mathbb{E}[q_i]=0\) そして
\(\mathbb{V}[q_i]=\mathbb{E}{q_i} \left[(q_i – \mathbb{E}[q_i])^2\right] = \mathbb{E}{q_i} \left[ q_i^2 \right] = 1\)

次に、ロジットの予想される分散は次のようになります。

\(\mathbb{E}{q} \left[ \mathbb{V}[q^\top k] \right] = \mathbb{E}{q} \sum_{i=1}^d q_i^2 = \sum_{i=1}^d \mathbb{E}{q_i} q_i^2 = \sum{i=1}^d 1 = d.\)

これで、ロジットを標準偏差\(\sqrt{\mathbb{E}_q \mathbb{V}[q^\top k]}=\sqrt{d}.\)で除算(より正確には、ロジットのスケールをキーおよびクエリベクトルの次元に対して不変にします)することにより、ロジットを0平均および単位分散に標準化できます。

これらの正規性の仮定は実際には当てはまりませんが、前に説明したように、正規性は、基礎となるプロセスについてあまり知らない場合に仮定するのに最も安全なものの1つです。

Ilya Kulikovが親切に指摘したように、この説明は「なぜ」ではなく、「何を」スケーリングするのかを答えます。「なぜ」と答えるのは少し難しいですが（おそらく当然のことながら）、1つの答えは、ロジット(softmaxへの入力)の大きさが大きくなるにつれてsoftmaxが飽和し、勾配消失により学習が遅くなる可能性があることです。ただし、それを定量化する正しい方法は不明です。

７．二重降下現象

Deep Learningモデルトレーニング時の注意点に、以前から存在する「偏りと分散のトレードオフ(Bias-Variance Tradeoff)」に加えて、「二重降下現象(double-descent)」が加わったようです。二重降下現象についてどのように考えるべきかについての洞察はありますか？

いわゆる二重降下現象は、比較的最近普及した概念であり、現在も沢山研究されています。(ただし、90年代初頭にすでにYannによって観察および報告されています。例えば、journals.aps.orgの「Eigenvalues of covariance matrices: Application to neural-network learning」やiopscience.iop.orgの「Generalization in a linear perceptron in the presence of noise」を参照してください)

ディープニューラルネットにおける二重降下現象で私が抱えている問題は、モデル容量(model capacity)をどのように定義するかは不明な事です。

パラメータはすべて高度に相関していて冗長であるため、パラメータの数はモデル容量の目安として最適ではありません。

仮説空間(hypothesis space)のサイズは実際にはSGDステップ数の関数であることが判明したため、おそらくモデル容量はSGDステップの数に関連しているはずです。私が興味深く説得力があると思う特定の目安の1つは、解におけるヘッセ行列(Hessian)の正の固有値の割合です。

この目安を使用すると、見かけの二重降下現象がしばしば軽減されるように見えます。例えばarxiv.orgの「Rethinking Parameter Counting in Deep Models: Effective Dimensionality Revisited」を参照してください。

したがって、要するに、モデルの容量とは、偏りと分散のトレードオフ(bias-variance trade-off )、またはより一般的には機械学習の一般化を理解するための鍵ですが、ディープニューラルネットワークを把握するための単純な概念ではありません。