連合学習のための分散型差分プライバシー(1/2)

１．連合学習のための分散型差分プライバシー(1/2)まとめ

・連合学習は機械学習モデルのトレーニングを分散して行う手法でデータは各端末内で処理されるためプライバシーが保たれる事が特徴
・セキュアアグリゲーションと分散版差分プライバシーの2つの技術を慎重に組み合わせることでプライバシー保証の向上に取り組んできた
・正式な手続きに従いつつも、受け取ったデータから洞察を得ようとする事が出来ないようにするための工夫を更に追及している

２．分散型差分プライバシーとは？

以下、ai.googleblog.comより「Distributed differential privacy for federated learning」の意訳です。元記事は2023年3月2日、Florian HartmannさんちPeter Kairouzさんによる投稿です。

アイキャッチ画像は連合学習的な中央サーバーに沢山の周辺デバイスが差分情報を送っている感じのアイキャッチ画像を作りたいんですよね、とchatGPT先生に相談して作って貰ったプロンプトに私が手を加えて、カスタムStable Diffusion先生に作って貰ったイラスト。私とは発想がかなり異なりますが、これはこれで格好良い感じがするのでもう、chatGPT先生に全部お任せで、私は製作総指揮の立場でも良いのではないかと言う気がしてきています。

連合学習(Federated Learning)は、機械学習(ML:Machine Learning)モデルのトレーニングを行う分散型の方法で、データは各端末内で処理されます。データの集約は行わず、機械学習モデルを更新する事のみを焦点としており、各端末から集計された指標がトレーニングを組織するサーバーと共有されます。

これにより、生データをサーバーに公開することなく、各端末内で利用可能な信号でモデルをトレーニングすることができ、ユーザーのプライバシーを高めることができます。2021年には、ユーザーが選択したいテキストを予測し、自動的に選択範囲を広げることでテキストの選択やコピーを容易にするAndroidの機能であるSmart Text Selectionモデルの学習に、連合学習を利用していることを発表しました。

その発売以来、私たちはセキュアアグリゲーション(SecAgg)と分散版差分プライバシーを慎重に組み合わせることで、この技術のプライバシー保証を向上させることに取り組んできました。

本投稿では、正直者だが好奇心旺盛なサーバ(Honest-but-curious server：正式な手続きに従いつつも、受け取ったデータからユーザーに関する洞察を得ようとするサーバー)にユーザデータが見えてしまわないようにするために、全てのユーザーデータに対して正式なプライバシー保証を提供する初の連合学習システムの構築と展開を説明します。このシステムで学習したSmart Text Selectionモデルは、標準的な経験的テスト手法で測定したところ、データの暗記を2倍以上減らすことができました。

セキュアアグリゲーションの規模を拡大

データの最小化は、連合学習の背後にある重要なプライバシー原則です。これは、学習中に必要なデータの収集、早期集計、および最小限のデータ保持に重点を置くことを意味します。連合学習の各学習に参加するすべての端末はモデルの更新を計算しますが、その一方、トレーニングを組織化する中央サーバーはその平均値にしか興味がありません。

したがって、データを最小化する事に最適化した世界では、サーバーは個々の更新について何も学ばず、集約されたモデルの更新を受け取るだけとなります。これはまさにSecAggプロトコルが厳密な暗号保証のもとで実現したものです。

この研究にとって重要なのは、最近の2つの進歩により、GoogleにおけるSecAggの効率と規模拡大可能性が向上したことです。

・改良された暗号プロトコル

これまでSecAggでは、クライアント計算が大きなボトルネックとなっていました。各端末で必要になる計算は、学習ラウンドに参加するクライアントの総数(N)に対して線形に増加します。新しい手続きでは、クライアントの計算量はNに対して対数的にスケールするようになり、サーバーのコストも同様に向上した結果、より大きな学習ラウンドを処理できるようになりました。より多くのユーザーが各ラウンドに参加することで、経験的にも形式的にもプライバシーが改善されます。

・最適化されたクライアントオーケストレーション
SecAggは対話的な手続きであり、参加するデバイスは共に進行します。この手続きの重要な特徴は、一部のデバイスが脱落しても堅牢であることです。あるクライアントがあらかじめ定義された時間内に応答を送信しない場合、そのクライアントの貢献なしに手続きを継続することができます。私たちは、このような時間窓を効果的に自動調整するための統計的手法を適応的に導入し、プロトコルのスループットを向上させました。以上の改良により、より強力なデータ最小化保証を備えたSmart Text Selectionの学習が容易かつ迅速になりました。

セキュアアグリゲーションであらゆるものの集計

典型的な連合学習システムでは、モデルの更新を集約するだけでなく、端末内の学習パフォーマンスを表す指標が必要です。これらは、モデルの挙動を理解し、潜在的なトレーニングの問題をデバッグするために重要です。Smart Text Selectionの連合学習では、すべてのモデル更新と指標はSecAggを介して集約されます。この動作は、TensorFlow Federatedを使用して静的に確認され、AndroidのPrivate Compute Coreの安全な環境で端末内に強制されます。その結果、集約されていないモデルの更新と指標はサーバーインフラのどの部分からも見えないため、Smart Text Selectionをトレーニングするユーザーのプライバシーがさらに強化されます。

差分プライバシー

SecAggはデータの露出を最小限にするのに役立ちますが、必ずしも個人に固有の何かが明らかにならないことを保証する集計を行うわけではありません。そこで、差分プライバシー(DP:Differential Privacy)の出番です。

DPとは、MLモデルのパラメータなどの計算結果に対する個人の影響力を制限する数学的なフレームワークのことです。これは、個々のユーザーの寄与を制限し、学習過程でノイズを加えて、出力モデルに対する確率分布を生成することで実現されます。DPには、個々のユーザーの学習サンプルを追加または削除したときに、分布がどの程度変化するかを定量化するパラメータ(ε)が付属しています。(小さければ小さいほど良い)

最近、私たちは、信頼できるサーバーが学習プロセスを制御する中央集権的な方法で、正式で意味のある強力なDP保証を実施する新しい連合学習の方法を発表しました。これにより、モデルを解析しようとする外部の攻撃者から保護することができます。しかし、このアプローチは、依然として中央サーバーへの信頼に依存しています。さらに高度なプライバシー保護を実現するために、私たちはSecAggプロトコルに統合された分散差分プライバシー(DDP:Distributed Differential Privacy)を用いて、DPを分散を強制するシステムを構築しました。