ディープラーニングコースを受講した生徒からの興味深い質問(1/4)

１．ディープラーニングコースを受講した生徒からの興味深い質問(1/4)まとめ

・バックプロパゲーションが脳に実装されていないことは生物学的制約のために非常に明白
・神経科学の観点からはこれはバックプロパゲーションに対する批判に繋がる側面がある
・局所的な極小値に嵌るとの批判もあるが何十年も前に大きな問題にならない事がわかっている

２．バックプロパゲーションに対する批判とは？

以下、kyunghyuncho.meより「A few QA’s from the course F’20 <Deep Learning>」の意訳です。元記事の投稿は2020年12月7日、kyunghyun choさんによる投稿です。

記事中のYann LeCun教授はニューラルネットワーク研究のパイオニアとして有名な三賢人のお一人です。

アイキャッチ画像のクレジットはPhoto by NeONBRAND on Unsplash

今学期、YannとAlfredoと一緒にディープラーニングコースを教え終えたところです。コースは「ブレンドモード」でした。つまり、毎週直接参加できる限られた小数の学生と、Zoomを介してリモートで参加する他の全ての学生と一緒にライブストリーミングされました。

これにより、コース全体で学生、インストラクター、アシスタントの間でより活発なオンラインディスカッションが行われ、実際、campuswire.com経由で開催されたコースのページにはかなりの数の興味深い質問が投稿されました。

私はそれらの質問に答えることを楽しんでいました。なぜなら、彼らの質問は私自身にもそれについて深く考えさせたからです。もちろん、いつものように、私はそれぞれに短い回答だけを残すことになりましたが、将来、同じ質問に遭遇した場合に備えて、ここでそれらを共有したいと思いました。私の質問は全て非常に推測的であり、厳密に正当化されるのではなく経験に基づいています。しかし、厳密に証明され、よく知られている回答の何が楽しいのでしょうか？

もちろん、ライブ講義やチャットルームでは、さらに多くの質問と回答がありました。しかし、私はそれらすべてを簡単に思い出すことができず、この前例のない学期の後、チャットログ全体を調べて興味深い質問を掘り下げるのに十分なエネルギーがありません。

以下の質問のリストは興味深い質問のごく一部であると考えてください。

また、回答を言い換え/短縮し、個人識別情報(書かれていた場合)を削除しています。

(1)なぜバックプロパゲーションは物議を醸したのですか？Yann先生は、さまざまなアプリケーションでConvNetを使用することについて物議を醸した大きな要因の1つは、バックプロパゲーションの使用であると述べました。backpropは単なる連鎖の適用ですが、なぜ、誰が、それを使用することに疑いを持っているのでしょうか？

(2)LeCun教授は、ミニバッチは並列化が容易である以外にシングルバッチSGDに勝る利点はなく、オンラインSGDは実際には優れていると述べました。シングルバッチが好ましい他の理論的理由はありますか？

(3)データセット全体を一度に正規化するのではなく、バッチ正規化を行うのはなぜですか？データセット全体を正規化するのに計算コストがかかりすぎる場合に適しているのでしょうか？

正規化により、固有値を等しくすることで最適化プロセスが容易になることを理解しました。ただし、バッチのみを正規化する場合、各バッチの正規化はノイズの影響を受けやすく、各ディメンションの学習率が低下する可能性があると思います。

(4)VAEでのバッチ正規化：畳み込みVAEモデルを実装しているときに、BatchNormレイヤーを削除すると、モデルが期待どおりにトレーニングできることに気付きました。 BatchNormがVAEモデルでこの問題を引き起こすのはなぜなのでしょうか？

(5)半教師ありVAEでは、各クラスのembedding次元をどのように決定すれば良いですか？また、BERTは位置を表すために位置embeddingを使用しましたが、BERTで位置embeddingの次元を決定するにはどうすればよいですか？

(6)内積注意(dot product attention)のソフトマックスへの入力を次元の平方根で割るのはなぜですか？

(7)Deep Learningモデルトレーニング時の注意点に、以前から存在する「偏りと分散のトレードオフ(Bias-Variance Tradeoff)」に加えて、「二重降下現象(double-descent)」が加わったようです。二重降下現象についてどのように考えるべきかについての洞察はありますか？

(8)あなたの意見では、人類は汎用人工知能(AGI:Artificial General Intelligence)を達成できますか？

（１）バックプロパゲーションに対する批判とは？

Yannが以前にバックプロパゲーションを使用することは物議を醸したと言ったのは、2つの異なる批判について言及したと私は思います。

1)バックプロパゲーション自体への言及

2)勾配ベースの最適化を行う際のバックプロパゲーション

以下でそれぞれについて少し説明しますが、どちらもバックプロパゲーションの使用に反対する深刻な議論とは見なされていません。

1)バックプロパゲーションは、人工ニューラルネット(私達が学んでいる事)と生物学的ニューラルネット(私たちが持っている脳)を比較する観点から物議を醸しており、かなり調査されています。

私達が使っているディープラーニングツールキットと異なり、バックプロパゲーションが脳に実装されていないことは生物学的制約のために非常に明白です。(例えば、openreview.netの「Evaluating biological plausibility of learning algorithms the lazy way」を参照して、いくつかの興味深い生物学的制約/属性を読んでみてください。これらの制約を、脳が行っていると思われる生物学的学習アルゴリズムは満たす必要があります）

訳注：斜め読みしましたが、現実世界の学習は時間経過を伴うため、バックプロパゲーション操作はBPTT(BackPropagation Through Time、時間経過を伴うバックプロパゲーション)となり必要な記憶容量がＮの３乗スケールで増加していくので生物学的システムにとっても負荷が大きすぎる等々の制約がある事。また、フォワードパスと並行して他の学習法を実装することは、かなり単純な仕組みであっても既に非常に多くのニューラルハードウェアを消費しているため、簡単ではないという事などのようです。

一部の人々にとって、この問題は運命を左右するような重大な問題です。何故なら、優れたニューラルネット(人間の脳！)をもたらす学習アルゴリズムが存在するように思われると言う事ですから。

生物学的脳が制約条件下で実行可能な近似的勾配計算をしていることを意味する可能性もありますが、これを検証するのは簡単ではありません。(例えば、以下のビデオを参照してください。どのようにすれば脳がバックプロパゲーションを実装する事ができるでしょうか？)

同じく三賢人の一人ヒントン先生のスタンフォードでの講義です

この線に沿った別の批判や異議は、生物学的脳はゼロまたは複数の目的を同時に最適化しているように見えるということです。これは、最小化する1つの明確な目的関数を定義することから始める深層学習の通常の慣行とは異なります。

(2)勾配ベースの最適化とは、多くの場合、(制約付き/制約なし)凸最適化のために開発された一連の手法を指します。このような手法を非凸問題に使用する場合、局所的な2次近似を使用することがよくあります。

つまり、空間内の任意の点が与えられると、基礎となる非凸目的関数を凸2次関数で近似できます

この仮定の下では、勾配ベースの最適化は、空間内の現在のポイントから遠く離れたより良い最小値が存在するかどうかに関係なく、この局所2次近似の最小値に引き付けられます。

これは、非凸目的関数を使用した勾配ベースの最適化の使用を批判する理由としてよく使用され、これはバックプロパゲーションの批判に繋がります。

SGDの収束特性に関する広範な研究については、leon.bottou.orgのOnline Learning and Stochastic Approximationsを参照してください。

ただし、この批判には、近くに存在する極小値の1つ(授業の中で数週間以内に説明します)と大域的な極小値の間に大きな品質のギャップがあるという1つの大きな仮定が必要です。大きなギャップがある場合、これは確かに問題になりますが、ない場合はどうなるでしょう？

必要な大きさを十分以上に満たすニューラルネットである限り、極小値のほとんどが(トレーニングとテストの精度の両方の点で)妥当な品質であることは、すでに数十年前からわかっていました。Rumelhart、Hinton＆Williams 1986の論文を以下に引用させてください。

「学習手順の最も明らかな欠点は、誤差面(error-surface)に極小値が含まれている可能性があるため、勾配降下法が大域的な最小値を見つけることが保証されないことです。ただし、多くのタスクの経験から、ネットワークが大域的な最小値よりも大幅に悪い局所的な最小値で立ち往生してしてしまう事はめったにありません。

この望ましくない動作は、タスクを実行するのに丁度十分な接続があるネットワークでのみ発生しました。更にいくつかの接続を追加すると、重み空間に余分な次元が作成され、これらの次元は、低次元の部分空間に不十分な極小値を作成するバリアを迂回するパスを提供します。」

<Learning representations by back-propagating errors(バックプロパゲーションエラーによる表現の学習)> Rumelhart、Hinton＆Williams（1986）

この現象は、さまざまな角度から非常に広く研究されてきました。このトピックに興味がある場合は、たとえば、proceedings.neurips.ccの「Identifying and attacking the saddle point problem in high-dimensional non-convex optimization」や最近の方向性についてはarxiv.orgの「The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks」または、怠惰な場合は、私が最近作成したスライド「A speculative lecture on
optimization in deep learning」をdrive.google.comで見る事ができます。