CIW:ノイズの多いラベルを使ってディープニューラルネットを訓練する新手法(1/3)

１．CIW:ノイズの多いラベルを使ってディープニューラルネットを訓練する新手法(1/3)まとめ

・ノイズの多いラベルはクリーンなデータで学習したモデルの精度を低下させることが多い
・ノイズの多いデータで直接機械学習モデルを学習させる手法を新たに検討した
・CIWはサンプルとラベルの両方に動的に重要度を割り当ててノイズの影響を低減する新手法

２．CIWとは？

以下、ai.googleblog.comより「Constrained Reweighting for Training Deep Neural Nets with Noisy Labels」の意訳です。元記事は2022年2月28日、Abhishek KumarさんとEhsan Amidさんによる投稿です。

ノイズっぽいイメージで選んだアイキャッチ画像のクレジットはPhoto by Elyas Pasban on Unsplash

過去数年間、ディープニューラルネットワーク(DNN:Deep Neural Networks)は、画像認識からゲノム解析まで、いくつかの実世界のアプリケーションで目覚ましい性能向上を実現し、大きな成功を収めてきました。しかし、最近のDNNは、学習可能なモデルパラメータが学習データ内のサンプル数よりもはるかに多いことが多く、その結果、パラメータ過多のネットワークは、ノイズが多いラベルや破損したラベル(つまり、誤ったラベルが付与されたサンプル)に容易に過剰適合してしまいます。

その結果、ノイズの多いラベルを用いた学習は、クリーンなテストデータで学習したモデルの精度を低下させることが多いです。残念ながら、ノイズの多いラベルは、手動で付与したラベルのエラーや矛盾、本質的にノイズの多いデータ収集元(例えば、インターネット上のデータや既存システムを使って機械的にラベルを付与)の使用など、複数の要因によって実世界のいくつかのシナリオで現れることがあります。

以前の研究では、大規模モデルをノイズの多いデータで事前学習することによって学習した特徴表現を、クリーンなデータで学習した線形分類器で用いると予測に有用であることが示されています。

原理的には、この2段階のアプローチに頼ることなく、ノイズの多いデータに対して直接機械学習(ML:Machine Learning)モデルを学習させることが可能です。

このような代替手法を成功させるためには、以下のような特性が必要です。

(1)標準的な学習パイプラインに簡単に組み込むことができ、計算量やメモリ使用量が少ないこと
(2)学習中に新しいデータを継続的に追加する「ストリーミング(streaming)」環境でも適用できること
(3)クリーンなラベルを持つデータを必要としないこと

論文「Constrained Instance and Class Reweighting for Robust Learning under Label Noise」において、私達は、CIW(Constrained Instance reWeighting)と呼ぶ新しい原理的な手法を提案します。

CIWは、潜在的にノイズを持つサンプルの影響を低減することを目的として、ミニバッチ内の個々のサンプルとクラスラベルの両方に動的に重要度を割り当てることによって機能します。

私達は、制約付き最適化問題の一種としてこれを定式化します。これらの最適化問題はミニバッチ毎に解けば良いので、データセット全体に対して重要度重みの保存や更新処理を行う事を回避できます。

また、この最適化フレームワークは、既存の経験則的なラベル平滑化手法(例えば、ラベルノイズに対処するための既存手法であるラベルブートストラップ(label bootstrapping)など)に理論的な側面を提供するものです。

私達は、標準的なCIFAR-10とCIFAR-100ベンチマークにおいて、様々な量の合成ノイズを用いて本手法を評価し、いくつかの既存の手法と比較してかなりの性能向上を確認しました。

手法

MLモデルの学習では、与えられた学習データに対して現在のパラメータがどの程度適合しているかを示す損失関数を最小化する必要があります。各学習ステップにおいて、この損失は、対象となるミニバッチ内の個々のサンプルの損失の(加重)和として近似的に計算されます。

標準的な学習では、モデルパラメータを更新するために各サンプルは平等に扱われます。つまり、ミニバッチ全体に均一な(すなわち等しい）重みを割り当てています。

しかし、これまでの研究で、特に学習の初期から中期にかけて、ノイズの多いサンプルやラベル付けミスのあるサンプルは、クリーンなサンプルよりも損失値が大きくなる傾向があることが分かっています。

したがって、すべてのサンプルに一律な重要度重みを割り当てることは、損失値が大きくなり、ノイズの多いサンプルがクリーンなサンプルを支配し、クリーンなテストデータでの精度を低下させる可能性があることを意味しています。

このような観察から動機づけられ、我々は、データセット中の個々のサンプルに重要度重みを割り当て、ノイズとなりそうなサンプルの影響を軽減することでこの問題を解決する、制約付き最適化問題の一種を提案します。

この手法は、重みがどの程度逸脱するかを制御することでダイバージェンス尺度(divergence measure)によって定量化できます。いくつかのタイプのダイバージェンス尺度に対して、サンプルの重みに関する簡単な公式を得ることができることがわかりました。

最終的な損失は個々のサンプルの損失の加重和として計算され、モデルパラメータの更新に使用されます。私達はこれをConstrained Instance reWeighting(CIW)と呼びます。この方法は、逸脱(divergence)とそれに対応するハイパーパラメータの選択により、重みの滑らかさやピーク性を制御することができます。