敵対的サンプルはバグではなく人間には知覚できない高度な特徴(4/5)

１．敵対的サンプルはバグではなく人間には知覚できない高度な特徴(4/5)まとめ

・最近の研究は敵対的サンプルは、分類に関係のない特徴を活用していると言う世界観を支持している
・しかし、今回の研究結果は分類に関係のない特徴を活用していると言う世界観と矛盾する
・敵対的サンプルは分類に役立つ特徴を活用していると言う世界観も考慮する必要がある

２．敵対的サンプルの２つの世界観

以下、distill.pubより「A Discussion of Adversarial Examples Are Not Bugs, They Are Features」の意訳です。元記事の投稿は2019年8月6日、Chris OlahさんとLudwig Schubertさんによる編纂です。

この記事は、論文「Adversarial examples are not bugs, they are features」に関する元著者のIlyas等による議論の一部です。詳細については、メインのディスカッション記事をご覧ください。

議論と、結果の分析、複製、拡張実験の設計に時間を費やしてくれたコメンテーターの皆さんに感謝します。

皆さんからのコメントは、敵対的なサンプルの理解をさらに洗練させるのに役立ちました。例えば、有用な堅牢でない特徴を視覚化したり、下流タスクで堅牢なモデルがどの程度成功するかを示す事ができました。それだけでなく、私達の研究論文を側面から強調し、よりクリアに明確にすることができました。

私達の回答は次のように構成されています。まず、私達の論文から重要なポイントを要約し、次にこの議論が明らかにしたいくつかの明確化が続きます。その後、各コメントに個別に対処し、より長い応答の前に簡単な要約を付けます。

また、私たちの回答に含まれるいくつかの用語の定義を論文から以下に抜き出しておきます。

データセット：私たちの実験には、特定のデータセットDの次の変形が含まれます。(サンプルラベルのペア(x, y)で構成されます。厳密なデータの定義は論文、及び実データはgithubよりダウンロードできます)

D-R:各サンプルxを、堅牢なモデルで使用される特徴に制限します。

D-NR:各サンプルxを、標準モデルで使用される特徴に制限します。

D-det:クラスy + 1 mod Cに標準モデルを使用して、各サンプルxを一貫した方法で敵対的に摂動させます。

D-rand:一様にランダムなクラスに対して標準モデルを使用して、各サンプルxを一貫した方法で敵対的に摂動させます。

主なポイント
テイクアウェイ１：
敵対的なサンプルは「生来の脆さ説」対「有用な特徴説」(感度 vs 信頼性)

堅牢でない特徴を使用した実験の目標は、敵対的なサンプルが次の2つの世界観にどのように適合するかを理解することです。

ワールド1：敵対的サンプルは、分類に関係のない特徴を活用しています。
この世界では、敵対的サンプルは、分類にとって重要ではない信号に対して敏感である事から生じます。
例えば、データを一般化した特徴ではない特徴f(x)があると仮定します。何らかの理由でモデルがそれらの特徴に大きな重みを置いているとします。この重みはモデルの「幻覚」によって引き起こされた異常です。

このケースでは敵対的サンプルとは、入力を微妙に変更(摂動)する事を意味しています。ただし、この微妙な変更は、モデルが実際に通常予測を行う際に参考にする特徴とは(自然データ上は)別の特徴です。

これは1つの例にすぎないことに注意してください。この世界の重要な特性は、敵対的サンプルを作成する際に転換された(flipped)特徴が、入力を分類するために実際に使用される特徴とは実際には異なっているという事です。

ワールド2：敵対的サンプルは、分類に役立つ特徴を活用します。
この世界では、敵対的な摂動とは、分類に関連する特徴を操作する微妙な変更である可能性があります。従って、モデルは、特徴に基づいて(おおよそ正しい)予測を行いますが、この特徴は小さな摂動を介して変更可能です。

最近の研究は、敵対的なサンプルが「有限標本に対する過学習」または「他の測定ベースの現象の集中(concentration of measure-based phenomena)」により生じる可能性があるという幾つかの理論的証拠を提供しています。これらは従って、敵対的なサンプルの「ワールド1」説を支持しています。

ここで生まれる疑問は「ワールド1は敵対的なサンプルを考える上で正しい考え方ですか？」です。

そうであれば、これは朗報です。この考え方の下では、敵対的な堅牢性は、「バグのない」モデルを改善するだけの問題かもしれません。(例えば、過学習を減らすことによって)

私達の研究結果は、しかしながら、ワールド1の考え方だけでは、敵対的な脆弱性を完全には捕捉できないことを示しています。「ワールド2」を考慮する必要があります。

敵対的サンプルは、標準的な方法で生成された場合、実際に分類に役立つ転換された特徴(flipping features)に依存しています。

具体的には、標準的な1次敵対攻撃に対応する摂動のみに依存させる事で、元々のデータのテストセットを分類する事が可能な一般化したモデルを学習できることを示します。

これは、これらの摂動が本当に、元々のデータセットに属する摂動の影響を受けていない新しい入力の分類に関連し、対応している事を意味します。

要約すると、私たちのメッセージは次のとおりです。

敵対的サンプルによる脆弱性は、入力の分類に役立つ正しいデータの特徴を転換(flipped)することから発生する可能性があります。

特に、私たちの実験(D-randとD-betを使ってトレーニングした結果の違い)では、ワールド1を支持しません。

具体的には、上記のワールド1の簡単な例として、分類器が「自然画像」に対して一般化していない特徴f(x)に大きな重みwを付けます。

次に、f(x)をわずかに正またはわずかに負にするだけで、いずれかのクラスに対する敵対的な例を作成できます。ただし、これらの敵対的サンプルから学習した分類子は、真のデータセットに一般化されません。(自然画像の分類に役に立たない特徴に依存することを学習してしまうためです)