敵対的サンプルはバグではなく人間には知覚できない高度な特徴(1/5)

１．敵対的サンプルはバグではなく人間には知覚できない高度な特徴(1/5)まとめ

・敵対的サンプルを使ってトレーニングしたモデルが敵対的でないデータを扱う事が出来る事が判明
・堅牢なデータセットを使ってトレーニングしたモデルが自明でない特徴を学んでいる事も判明
・敵対的サンプルとは人間に知覚できない「堅牢でない特徴(non-robust features)」によるもの説が提唱

２．敵対的サンプルはバグではない説とは？

以下、distill.pubより「A Discussion of Adversarial Examples Are Not Bugs, They Are Features」の意訳です。元記事の投稿は2019年8月6日、Chris OlahさんとLudwig Schubertさんによる編纂です。

5月6日、Andrew Ilyasと同僚は、2組の実験の概要を示す論文を発表しました。

第一に、彼らは、敵対的なデータを使って訓練されたモデルが実際のデータに転移学習できる事を示し、第二に、堅牢なニューラルネットワークの特徴表現から派生したデータセットで訓練されたモデルは、自明ではない堅牢性を継承しているようであることを示しました。

彼らは彼らの研究結果に興味をそそる解釈を提案しました。

敵対的なサンプルは、人間には知覚できない「堅牢でない特徴(non-robust features)」によるものであり、高度な知覚を持っていれば予測可能なサンプルです。

この論文は、世界中のソーシャルメディア、メーリングリスト、リーディンググループに強い関心と議論をもたらしました。これらの実験をどのように解釈するべきでしょうか？これらの実験は再現可能でしょうか？

そして、堅牢でない特徴が存在するとしたら・・・それらは一体何なのでしょうか？

これらの質問を調査するために、Distillは実験的な「議論を元にした記事」を掲載する事にしました。私達は多くの研究者にこの論文に関するコメントを回答してもらい、元の著者からの議論と回答を整理しました。

機械学習コミュニティは、査読が十分に徹底されていない事を心配する場合があります。これとは対照的に、今回のコメント回答者の関与の深さには驚かされました。一部の回答者は、結果の複製、新しい実験の実施、元の論文についての深い考察に、文字通り数週間を費やしました。

また、回答者が実験を行ったときに、堅牢ではない特徴に関する見解を更新しているのを目にしました。時には前向きに、または後ろ向きに！

原著者も同様に、結果を議論し、誤解を明確にし、コメントに応じて新しい実験を実行することにも深く関与しました。この深い関わりと議論は本当にエキサイティングだと思うので、今後はこのような議論を元にした記事をもっと試してみたいと思います。

ディスカッションテーマ

・明確化
回答者と元の著者の間の議論は、主張を明確にするいくつかの誤解または範囲を明らかにすることができました。元の著者は、これを反論で要約しています。

・成功した再現実験
回答者は、Ilyasらの実験の多くを成功裏に再現しました。失敗した複製試行はありませんでした。これは、元の作者によるコード、モデル、およびデータセットのリリースによって大幅に促進されました。Gabriel GohとPreetum Nakkiranは、堅牢ではないデータセットの実験をそれぞれ独立して再実装および複製しました。Preetumは、提供された堅牢なデータセットでモデルをトレーニングし、それらが非常に堅牢であるように見える事を発見することにより、堅牢なデータセット実験の一部も複製しました。PreetumとGabrielの両方が当初懐疑的だったことは認識論的に注目に値するようです。Preetumは、この現象を簡単に機能させることができること、そして彼が試した多くのバリアントやハイパーパラメーターに対して堅牢であることを強調しています。

・非堅牢データセットを用いた転移学習の境界を探索
3つのコメントは、敵対的なサンプルを使ってトレーニングしたモデルが実際のデータに転移学習可能な事象「非堅牢データセット」実験の変形に焦点を当てました。いつ、どのように、なぜ起こるのでしょうか？Gabriel Gohが結果の代替メカニズムを調査し、Preetum Nakkiranがそれが発生しない特別な構造を示し、Eric Wallaceが他の種類の誤ってラベル付けされたデータに対して転送が発生する可能性があることを示します。

・堅牢な特徴と堅牢でない特徴の属性
他の3つのコメントは、堅牢なモデルと非堅牢モデルの特性に焦点を合わせました。Gabriel Gohは、線形モデルの場合に堅牢でない特徴がどのように見えるかを調査しました。Dan HendrycksとJustin Gilmerは、結果が分布シフトに関する堅牢性のより広範な問題にどのように関連しているかを調整しました。Reiichiro Nakanoは、スタイル変換における堅牢性モデルの質的な違いを探りました。