トレーニングデータ抽出攻撃：大規模言語モデルが記憶してしまうプライバシー情報(2/2)

１．トレーニングデータ抽出攻撃：大規模言語モデルが記憶してしまうプライバシー情報(2/2)まとめ

・トレーニングデータ抽出攻撃の目標は言語モデルが何を記憶しているかを予測する事
・ニュースヘッドライン、ログ、コード、個人情報などの幅広いコンテンツを記憶していた
・差分プライバシーなどの幾つかの予防策はあるが完璧な対処法はまだ開発されていない

２．メンバーシップ推論攻撃とは？

以下、ai.googleblog.comより「Privacy Considerations in Large Language Models」の意訳です。元記事の投稿は2020年12月15日、Nicholas Carliniさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by David Clode on Unsplash

トレーニングデータ抽出攻撃の目標は、言語モデルから得た何百万もの出力文をふるいにかけ、どのテキストが記憶されているかを予測することです。

これを達成するために、私達のアプローチは、モデルがトレーニングデータから直接記憶した結果に自信を持つ傾向があるという事実を利用しています。この傾向を利用すると、与えた入力データが学習データ内に含まれているか？(訳注：メンバーシップと言います)を予測する事が出来、この攻撃方法をメンバーシップ推論攻撃(membership inference attacks)と言います。

本研究の主な技術的貢献は、メンバーシップを高精度で推測する手法の開発です。記憶済みコンテンツの出力を促進するようにモデルからサンプリングを行うテクニックと共にこれを行いました。

様々なサンプリング戦略をテストしましたが、その中で最も成功したのは、様々な入力フレーズを条件とするテキストを生成する事です。次に、2つの異なる言語モデルの出力を比較します。一方のモデルでは出力文の信頼度が高いが、もう一方の(同等に正確な)モデルでは出力文の信頼度が低い場合、最初のモデルがデータを記憶している可能性があります。

結果
GPT-2言語モデルに対する1800の抽出候補文から、600を超える候補文を抽出できました。これらは公開トレーニングデータから記憶された文であり、手動検証の必要性があるために抽出数は制限しています

記憶されているサンプルは、ニュースのヘッドライン、ログメッセージ、JavaScriptコード、個人情報(PII:Personally Identifiable Information)などの幅広いコンテンツをカバーしています。これらの例の多くは、トレーニングデータセットに何度も現れるものではありませんが、モデル内部に記憶されています。

例えば、抽出したPIIの多くは、データセット内の1つのドキュメントにのみ含まれています。ただし、これらのほとんどのケースで、元のドキュメント内にPIIの複数の実体が含まれているため、モデルはそれを可能性の高いテキストとして学習してしまいます。

最後に、言語モデルが大きいほど、トレーニングデータを覚えやすくなることもわかりました。例えば、ある実験では、15億のパラメーターを持つGPT-2 XLモデルが、1億2400万個のパラメーターを持つGPT-2 Smallモデルの10倍の情報を記憶していることがわかりました。

研究コミュニティがすでに10倍から100倍の大きさのモデルをトレーニングしていることを考えると、これは、時間が経つにつれて、ますます大きくなる言語モデルでこの問題を監視および軽減するために、より多くの作業が必要になることを意味します。

教訓
特にGPT-2に対するこれらの攻撃を示していますが、全ての巨大な生成言語モデルに潜在的な欠陥があることを示しています。これらの攻撃が可能であるという事実は、これらのタイプのモデルを使用した機械学習研究の将来にとって重要な結果をもたらします。

幸い、この問題を軽減する方法はいくつかあります。最も簡単な解決策は、モデルが潜在的に問題のあるデータをトレーニングしないようにする事です。しかし、これを実際に行うのは難しい場合があります。

個々のトレーニングサンプルの詳細を明らかにせずともデータセットを使ったトレーニングを可能にする差分プライバシー(differential privacy)の使用は、プライバシーを考慮して機械学習モデルをトレーニングするための最も原則的な手法の1つです。

TensorFlowでは、これは、既存のオプティマイザーに差し込み可能な代替品であるtensorflow / privacyモジュール(PyTorchまたはJAXの場合も同様)を使用して実現できます。

この手法にも制限があり、何度も繰り返されるコンテンツの記憶を妨げることはありません。これが不可能な場合は、適切なアクションを実行できるように、少なくともどのくらいの記憶が発生するかを測定(論文「The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks」)することをお勧めします。

言語モデルは引き続き優れた有用性と柔軟性を示していますが、すべてのイノベーションと同様に、リスクももたらす可能性があります。それらを責任を持って開発する事は、それらのリスクを積極的に特定し、それらを軽減する方法を開発することを意味します。

大規模な言語モデリングの現在の弱点を浮き彫りにするこの取り組みが、より広範な機械学習コミュニティにおけるこの課題の認識を高め、暗記を減らしてモデルをトレーニングするための効果的な手法を開発し続ける動機付けになることを願っています。

謝辞
本研究は、Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, Alina Oprea, Colin Raffelの共同研究として行われました。