厳密な差分プライバシー保証を持つ連合学習(3/3)

１．厳密な差分プライバシー保証を持つ連合学習(3/3)まとめ

・米国国勢調査より強い基準のFLモデルを本番環境に配備するという成果を達成した
・他のMLモデルや製品でも実用的で利用可能であるとはまだ言えず研究は続く
・ユーザーの潜在的なプライバシーコストを最小限に抑えながらMLの価値を最大化する旅は続く

２．差分プライバシーを用いた連合学習

以下、ai.googleblog.comより「Federated Learning with Formal Differential Privacy Guarantees」の意訳です。元記事は2022年2月28日、Brendan McMahanさんとAbhradeep Thakurtaさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Ruthson Zimmerman on Unsplash

製品トレーニングの詳細と正式なDP保証宣言

上記で紹介したDP-FTRLの本番環境では、各対象デバイスはユーザーのキーボード入力を端末内に学習データとして保持し、参加時には、これまでに入力された単語に基づいて、ユーザーが実際に入力した次の単語を提案する可能性を高めるモデルの更新を計算します。

このデータに対してDP-FTRLを実行し、約130万のパラメータを持つリカレントニューラルネットワークを学習させました。訓練は6日間で2000ラウンド行われ、各ラウンドには6500台のデバイスが参加しました。DP保証を考慮し、デバイスは最大で24時間に一度、トレーニングに参加しました。DP-FedAvgは、非DPモデルに対して経験的に検証されたプライバシーの優位性を持っていましたが、意味のある正式なDP保証を欠いていました。

今回使用した学習メカニズムは、TensorFlow FederatedとTensorFlow Privacyでオープンソースとして提供されており、私達の実運用で使用したパラメータで、意味のある強いプライバシー保証を提供することができます。

私達の分析では、ユーザーレベル(各デバイス上のすべてのデータを異なるユーザーとして扱う)でρ=0.81 zCDPが得られました。数値が小さいほど数学的に正確な方法でより良いプライバシーに対応します。比較すると、これは2020年米国国勢調査が採用したρ=2.63 zCDP保証よりも強いものです。

次のステップ

私たちは、zCDPを有意に小さくするメカニズムを用いて本番環境にFLモデルを配備するというマイルストーンに到達しましたが、私たちの研究の旅はまだ続きます。

このアプローチがほとんどのMLモデルや製品アプリケーションで可能である(実用的であることは言うまでもない)と言えるにはまだ程遠く、プライベートMLへの他のアプローチも存在します。

例えば、(トレーニングするために使用されたサンプルが推測できない事を確かめる)メンバーシップ推論テストや他の経験的なプライバシー監査技術は、ユーザーデータの漏洩に対する補完的なセーフガードを提供することができます。

最も重要なことは、ユーザーレベルDPを用いたモデルの訓練が、たとえ非常に大きなzCDPであっても、実質的な前進であると考えることです。さらに、より優れたアルゴリズムやより多くのデータが利用可能になったときに、プライバシー保証を向上させたモデルをトレーニングする道筋をスムーズにすることができます。私達は、学習データを提供するユーザーの潜在的なプライバシーコストを最小限に抑えながら、MLが提供できる価値を最大化するための旅を続けることに興奮しています。