Underspecification：検証データで測定した精度のみに頼る事の落とし穴(1/3)

１．Underspecification：検証データで測定した精度のみに頼る事の落とし穴(1/3)まとめ

・機械学習モデルは現実世界で使用すると予期していなかった動作をする事がある
・検証を行ったモデルであっても製品展開後に一貫性がなくなる可能性がある
・これらのエラーは検証用データだけで検証する仕様不足が起因している

２．Underspecificationとは？

以下、ai.googleblog.comより「How Underspecification Presents Challenges for Machine Learning」の意訳です。元記事の投稿は2021年10月18日、Alex D’AmourさんとKatherine Hellerさんによる投稿です。

Underspecificationは仕様不足と訳しましたが「不完全な指定」の方がわかりやすいるかもしれません。要は現在は検証データを使って精度など１つの指標だけを測定して検証する事が一般的ですが、実はほぼ同じ精度のモデルであっても公平性や堅牢性などの観点から調べると予想以上に大きな違いが発生していると言うお話です。

様々な視点からチェックする事の大切さを表現出来たのではないかと自画自賛したアイキャッチ画像のクレジットはPhoto by Steven Lelham on Unsplash

機械学習(ML:Machine Learning)モデルは、現在、かつてないほど広く使用されており、ますます影響力が増しています。しかしながら、現実世界で使用すると、予期しない動作を示すことがよくあります。

たとえば、コンピュータビジョンモデルは、写真内のわずかな特徴に対して驚くべき感度を示す可能性があります。自然言語処理モデルは、テキストで直接示されていない人口統計学的(訳注：demographic、つまり年齢、性別、人種、雇用形態、場所など)な相関に予期せず依存する可能性があり、これらの失敗のいくつかの理由はよく知られています。

たとえば、まとめが不十分なデータでMLモデルをトレーニングしたり、モデルが適用される領域と構造的に一致しないデータを使ってモデルをトレーニングしたりする事です。ただし、これらの既知の問題が処理された場合でも、モデルの動作は展開後に一貫性がなく、トレーニングの最中でさえ異なる可能性があります。

Journal of Machine Learning Researchに掲載される論文「Underspecification Presents Challenges for Credibility in Modern Machine Learning」では、最近のMLシステムで特に一般的な障害が仕様不足(underspecification)であることを示します。

仕様不足の背後にある考え方は、MLモデルは保持された検証用データで検証されますが、この検証だけでは不十分な場合が多いということです。検証用データでの検証だけでは、モデルが新しい設定で使用された際にも「明確に定義された動作を行う」事を保証する事になりません。

仕様不足がさまざまな実用的なMLシステムに現れることを示し、緩和のためのいくつかの戦略を提案します。

仕様不足とは？

MLシステムは、高いパフォーマンスを確保するために、検証用に確保したデータでモデルの検証を行っているため、成功を収めています。

ただし、固定データセットでモデルをトレーニングする場合、モデルに高い検証パフォーマンスを達成させるための多くの異なる方法があります。

標準的な方法では、個々のタスクを実行するモデルは、検証用データでの予測パフォーマンスがほぼ同等であれば、同等の性能として扱われることがよくあります。

重要なことに、これらのモデルの違いは、微妙に内容を変更した入力に対する公平性や堅牢性など、標準的な予測パフォーマンスを超える基準で測定された場合に明らかになります。

たとえば、標準の検証で同等に機能するモデルの中には、社会的グループ間で他のモデルよりもパフォーマンスの格差が大きいものや、無関係な情報に大きく依存しているものがあります。これらの違いは、モデルが現実世界で使用される場合に動作の違いとなって明らかになる可能性があります。

仕様不足とは、「実践者がMLモデルを構築するときによく念頭に置く要件」と「MLパイプラインに実際に適用される要件」との間のギャップ(つまり、モデルの設計と実装のギャップ)を指します。

仕様不足が引き起こす重大な結果は、パイプラインが原則としてこれら全ての要件を満たすモデルを返すことができたとしても、実際には、モデルが「検証用データで正確な予測をする」以上の要件を満たすという保証がない事です。

実際、返されるモデルには、ランダムな初期化シード、データの順序付け、ハードウェア等から生じるものなど、MLパイプラインの実装内に存在する任意または明確でない選択に依存する属性が含まれる場合があります。

そのため、MLパイプラインに明確な欠陥がない場合でも、本番環境で予期しない動作をするモデルが返される可能性があります。

実際のアプリケーションでの仕様不足の特定

この研究では、実際のアプリケーションで使用されるMLモデルの種類における仕様不足の具体的な影響を調査しました。

私たちの経験的戦略は、ほぼ同一のMLパイプラインを使用してモデルのセットを構築することでした。これには、標準の検証パフォーマンスに実際的な影響を与えない小さな変更のみを適用しました。ここでは、トレーニングを初期化し、データの順序を決定するために使用されるランダムシードに焦点を当てました。

モデルの重要な属性がこれらの変更によって大幅に影響を受ける可能性がある場合は、パイプラインが実際動作を仕様として完全に指定していないことを示しています。この実験を行ったすべての領域で、ランダムシードの小さな変化が、実際の使用時に重要となる中枢機能にかなりの変動を引き起こすことがわかりました。

３．Underspecification：検証データで測定した精度のみに頼る事の落とし穴(1/3)関連リンク

１）ai.googleblog.com
How Underspecification Presents Challenges for Machine Learning

２）arxiv.org
Underspecification Presents Challenges for Credibility in Modern Machine Learning