MentorMix：現実世界の誤ラベルがディープラーニングに及ぼす影響を調査(3/3)

１．MentorMix：現実世界の誤ラベルがディープラーニングに及ぼす影響を調査(3/3)まとめ

・誤ラベルを処理する簡単な方法はクリーンなデータセットで事前トレーニングすること
・合成ノイズで良好に機能する手法は現実のノイズの多いラベルでは機能しない場合がある
・MentorMixは、合成および現実世界の両方のノイズの多いラベルをより適切に克服可能

２．ノイズを多く含むラベルに対処するヒント

以下、ai.googleblog.comより「Understanding Deep Learning on Controlled Noisy Labels」の意訳です。元記事の投稿は2020年8月19日、Lu JiangさんとWeilong Yangさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Jamie Matociños on Unsplash

Web上のノイズの多いラベルに関する新しい発見
今回の作業は、ノイズの多いラベルでトレーニングされたディープニューラルネットワークを理解するための、これまでで最大の研究です。Webラベルノイズに関する3つの新しい調査結果を紹介します。

(1)ディープニューラルネットワークは、Webラベルノイズをより良く一般化します
ディープニューラルネットワークは、合成ノイズを含むラベルに対して一般化が不十分になる事がよく知られていますが、私達の調査結果は、ディープニューラルネットワークがWebラベルノイズに対して良く一般化していることを示唆しています。例えば、60%のウェブラベルノイズを含むStanford Carsデータセットでトレーニングされたネットワークの分類精度は0.66です。合成ノイズを使って同じ60%でトレーニングした同ネットワークの場合は0.09にしかなりません。この結果は、微調整の場合もゼロからトレーニングした場合も、私達が用いた2つのデータセットで一貫しています。

(2)ディープニューラルネットワークは、Webラベルノイズでトレーニングされた場合、最初にパターンを学習しない場合があります
私達が持っている共通の認識は、「ディープニューラルネットワーク(DNN:Deep Neural Networks)は最初にパターンを学習する」ということです。

これは、DNNが細部、つまり個々のノイズを含んだトレーニングラベルを記憶する前に、トレーニングの初期段階で一般化可能な「パターン」を自動的に学習するという興味深い属性です。このため、ノイズの多いデータを使ってトレーニングする際には早期停止(Early Stopping)が一般的に使用されます。

ただし、私達の調査結果は、少なくともきめ細かい画像分類タスクでは、ラベルノイズを持つWebデータセットを使用してトレーニングした場合、ディープニューラルネットワークが最初にパターンを学習しない可能性がある事が示唆されています。つまり、早期停止はウェブから取得した現実世界のラベルノイズには効果がない可能性がある事が示唆されました。

(3)ImageNetアーキテクチャは、ネットワークが微調整されている場合、ノイズの多いトレーニングラベルでも一般化できます

Kornblith等による2019の論文「Do Better ImageNet Models Transfer Better?」では、ImageNetでトレーニングされたより高度なアーキテクチャを微調整すると、クリーンなトレーニングラベルを持つ下流タスクのパフォーマンスが向上する傾向がある事が示されました。

私たちの研究結果は、この発見をノイズの多いトレーニングデータに拡張しました。
ImageNetで事前トレーニングした際にパフォーマンスが向上する、事前トレーニング済みの優れたアーキテクチャは、ノイズの多いトレーニングラベルを使って微調整した場合でも、パフォーマンスが向上する可能性が高いことを示しています。

まとめ
調査結果に基づいて、ノイズの多いデータでディープニューラルネットワークをトレーニングする際の次の実用的な推奨事項があります。

(1)ノイズの多いラベルを処理する簡単な方法は、ImageNetなどのクリーンなデータセットで事前トレーニングしたモデルを微調整することです。事前トレーニングしたモデルが優れているほど、下流のノイズの多い訓練タスクで一般化できる可能性が高くなります。

(2)早期停止(Early Stopping)は、Webから取得した現実世界のラベルノイズには効果がない場合があります。

(3)合成ノイズで良好に機能する手法は、Webの現実のノイズの多いラベルでは機能しない場合があります。

(4)Webに存在するラベルノイズは害が少ないように見えますが、しかしそれでも、現在の堅牢な学習手法で取り組む事はより困難です。この事実により、制御された現実世界のラベルノイズについてより多くの研究が将来行われるようになるでしょう。

(5)提案されたMentorMixは、合成および現実世界の両方のノイズの多いラベルをより適切に克服できます。

MentorMixのコードはGitHubから入手できます。データセットはControlled Noisy Web Labelsのウェブサイトで公開されています。

謝辞
この研究は、Lu Jiang, Di Huang, Mason Liu, and Weilong Yangによって実施されました。
建設的なフィードバックを提供してくれたBoqing GongとFei Shaに感謝します。更に、データにラベル付けする取り組みでリーダーシップを発揮してくれたAndrew Moore、データセットのリリースに協力してくれたTomas IzoとRahul Sukthankarに感謝します。