TFCO：制約付き最適化ライブラリを使用して公平性の目標を設定(3/3)

１．TFCO：制約付き最適化ライブラリを使用して公平性の目標を設定(3/3)まとめ

・制約が適用されるグループがデータセット内で過小評価されてしまう可能性があることに注意が必要
・各グループの割合が高い別のリバランスされたデータセットに制約を課す事が推奨される
・適切に制約を設定すれば制約付きモデルは精度を維持しながら誤検出率を大幅に下げる事が可能

２．TFCOで制約を設定する際の注意事項

以下、ai.googleblog.comより「Setting Fairness Goals with the TensorFlow Constrained Optimization Library」の意訳です。元記事の投稿は2020年2月21日、Andrew Zaldivarさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Cristian Newman on Unsplash

小さなサンプルサイズの呪い
制約付き最適化を使用する場合のもう1つの良くある問題は、制約が適用されるグループがデータセット内で過小評価されてしまう可能性があることです。その結果、トレーニング中に計算する確率的勾配は非常にノイズが多く、収束が遅くなります。このようなシナリオでは、ユーザーは各グループの割合が高い別のリバランスされたデータセットに制約を課し、元のデータセットは目的を最小限にするためにのみ使用することをお勧めします。

例えば、私たちが提供するWikiの毒性(toxicity)の例では、Wikiのトークページに投稿されたディスカッションコメントが毒性(つまり、「失礼、無礼、または不当な」な内容を含む)かどうかを予測します。

コメントの1.3%のみが「性」に関連する用語に言及しており、これらのコメントの大部分は有毒と表示されています。従って、このデータセットに制約を付けずにCNNモデルをトレーニングすると、「性」は毒性の強力な指標となり、このグループに高い偽の陽性率(つまり誤検知)をもたらすと考えられるモデルにつながります。

私達はTFCOを使用して、4つのデリケートなトピック(性、性同一性、宗教、人種)の偽陽性を2％以内に制限しています。サイズが小さいグループをより適切に処理するために、「リバランスされたデータセット」を制約に使用します。元のデータセットは目的を最小化するためだけに適用します。

以下に示すように、制約付きモデルは、制約なしモデルとほぼ同じ精度を維持しながら、4つのトピックグループの誤検出率を大幅に下げることができます。

ウィキトークページで有毒コメントを分類する「制約のないCNNモデル」と「制約を持つCNNモデル」の比較

交差性(Intersectionality)-きめ細かいグループ間の問題
重複する制約は、歴史的に疎外された少数派グループに対して公平性をもたらすために役立ちます。

前述の例に加えて、有名人の顔画像を集めたCelebAデータセットを使って画像内の笑顔を検出するコンピュータービジョンモデルの例で説明します。笑顔の検出は相互に排他的でない複数のグループ内でうまく機能する事が望まれます。

ここでは偽陽性(誤検知率)が適切な測定基準になる可能性があります。これは、「笑顔」として誤って分類された「笑顔を含まない画像」の割合を測定するためです。

利用可能な年齢グループ(若者と高齢者)または性別(男性と女性)のカテゴリに基づいて誤検知率を比較することにより、望ましくないモデルのバイアス(つまり、笑っている高齢者の画像が検知率が低いなど)を確認できます。

若者と高齢者の笑顔を検出するための制約のないCNNモデルと制約のあるCNNモデルの比較

念入りに調べる
割合で指定される制約を正確に扱う事は困難です。割合は数を数える事で計算されているため(例えば、「正確な割合」は「正しい予測の数」を「サンプルの数」で割ったものです）、制約関数は微分不可能です。

アルゴリズム的に、TFCOは制約のある問題をゼロサムではない2人用ゲーム(ALT’19:Two-Player Games for Efficient Non-Convex Constrained Optimization、JMLR’19:Optimization with Non-Differentiable Constraints with Applications to Fairness, Recall, Churn, and Other Goals)に変換します。このフレームワークを拡張して、ランキングと回帰の設定(AAAI’20:Pairwise Fairness for Ranking and Regression)、Fメジャー(NeurIPS19a:Optimizing Generalized Rate Metrics with Three Players)などのより複雑な基準を処理したり、一般化パフォーマンスを改善したり(ICML’19:Training Well-Generalizing Classifiers for Fairness Metrics and Other Data-Dependent Constraints)する事ができます。

TFCOライブラリは、実世界の要件を満たすために必要な社会的および文化的要因を考慮したMLモデルのトレーニングに役立つと考えています。上で説明した例(毒性の分類と笑顔の検出)は使用例を表面的に論じただけです。TFCOの柔軟性により、問題の固有の要件に対処できることを願っています。

謝辞
本研究は、TFCOの著者および関連する研究論文による共同作業でした。
以下の方々を含みます。Andrew Cotter, Maya R. Gupta, Heinrich Jiang, Harikrishna Narasimhan, Taman Narayan, Nathan Srebro, Karthik Sridharan, Serena Wang, Blake Woodworth, そして Seungil You。