敵対的サンプルはバグではなく人間には知覚できない高度な特徴(2/5)

１．敵対的サンプルはバグではなく人間には知覚できない高度な特徴(2/5)まとめ

・敵対的サンプルがバグではなく人間にできない特徴説に対するコメント集
・堅牢な特徴の定義から単純化したモデルを使って調査する案など様々
・スタイル転送の際に堅牢な特徴を使う事により見た目が良くなる興味深い結果も

２．敵対的サンプルに関するコメント

以下、distill.pubより「A Discussion of Adversarial Examples Are Not Bugs, They Are Features」の意訳です。元記事の投稿は2019年8月6日、Chris OlahさんとLudwig Schubertさんによる編纂です。

Distillは元の論文について6つのコメントを集めました。それらは著者の姓のアルファベット順に表示され、各コメントの簡単な要約と、元の著者からの対応する応答があります。

(1)「堅牢性(Robustness)」の概念の拡張の必要性
Justin GilmerとDan Hendrycksは、表面的な相関関係を把握するため、「堅牢でない特徴」を「モデルが堅牢ではない場合の特殊ケース」とする事を議論しています。これは、分布の堅牢性に関する文献でよく見られる見解です。

例として、彼らはニューラルネットワークが周波数空間でどのように振る舞うかの最近の分析を議論しています。彼らは、著者がより堅牢な概念を考えるべきだと強調しています。

元の著者からのコメント
データの高周波成分のみから学習するモデルのデモンストレーションは、人間にとって「意味のない」データからモデルを学習させる他の方法を提供する興味深い発見です。著者は、堅牢性のより広い概念の研究がMLでますます重要になり、モデルが実際に依存したい特徴をよりよく把握するのに役立つことに完全に同意します。

(2)堅牢な特徴のリーク
Gabriel Gohは非堅牢な転送結果に寄与する可能性のある代替メカニズムを探ります。彼は、このメカニズムがDrand実験に少し寄与していることを示し、下限を確立しました。しかし、Ddet実験に影響する証拠は見つかりませんでした。

元の著者からのコメント
これは、Ddetデータセットを設計する動機の1つを強調する（そしてきれいに視覚化する）優れた詳細な調査です。

(3)堅牢でない特徴の事例2つ
Gabriel Gohは、線形の場合に堅牢でない特徴がどのように見えるかを探りました。彼は2つの構造を提供しています。

・汚染された特徴(contaminated features)：役に立たない特徴が混入しているためだけに堅牢ではない
・アンサンブル：真に有用な非堅牢な特徴候補となりうる

元の著者からのコメント
線形モデルを使用したこれらの実験は、実際のデータセットに存在する堅牢でない特徴を視覚化するための優れた最初のステップです。(従って、それらの存在のきちんとした確証にも繋がります)。

更に、「汚染された」堅牢でない特徴の理論的な構築は、特徴のよりきめ細かい定義を開発する興味深い方向を開きます。

(4)堅牢なニューラルスタイル転送
Reiichiroは、敵対的な堅牢性により、VGG以外のアーキテクチャでデフォルトでニューラルスタイル転送が機能することを示しています。彼は、堅牢な特徴のマッチングにより、スタイル転送の出力が人間にとって知覚的に良く見えることを発見しました。

元の著者からのコメント
非常に興味深い結果で、堅牢でない特徴の潜在的な役割と、下流タスクにおける堅牢なモデルの有用性を強調しています。堅牢なトレーニングを受けたモデルがニューラルネットワークアートにどのような影響を与えるかを楽しみにしています！

これらの発見に触発されて、堅牢でないVGGを更に深く掘り下げて、堅牢性とスタイル転送の間の興味深い関連を見つけます。