責任あるAI(Responsible AI)の実践

１．責任あるAI(Responsible AI)の実践まとめ

・Googleが推奨するResponsible AIの実践方法についてのまとめ
・人間中心のアプローチ、データの理解、指標の設定、継続的な監視など
・「一般的なソフトウェア開発の問題」と「機械学習に固有の問題」の考慮が必要

２．Responsible AIとは？

以下、https://ai.googleより「Responsible AI Practices」の意訳です。

AIの開発は、ビジネスから医療、教育まで、世界中の人々の生活を改善する新たな機会を作り出しています。それはまた「公平性、解釈性、プライバシー、セキュリティなどをAIに組み込むためのベストな方法は何か？」と言う新たな疑問を生み出しています。

これらの疑問は解決にはほど遠く、現在活発に研究開発が行われている分野です。 Googleは、責任あるAI開発を進め、知識、研究、ツール、データセット、その他のリソースをより大きな機械学習コミュニティと共有することにコミットメントしています。

以下では、Googleの現在の仕事と推奨される方法を何点か紹介します。Googleの他の研究と同様、最新の調査結果を考慮に入れ、適切なものを組み込み、Google自身も学習しながらより良い責任あるAIに適応させていきます。

AI開発時にGoogleが推奨する一般的な実践方法

信頼性が高く、効果的なユーザ中心のAIシステムは、「ソフトウェアシステム開発時の一般的なベストプラクティス」と「機械学習に固有のプラクティス」に従って設計する必要があります。

Googleのトップ推奨事項は以下のとおりです。

（１）人間中心のデザインアプローチをしてください
実際にユーザーがシステムを体験する事は、そのシステムの、予測、推奨、決定の真のインパクトを評価する上で不可欠です。

・明快さと統制は、優れたユーザーエクスペリエンスにとって重要です。

・増強と支援について考えてみましょう。1つの答えを生成することは、その答えが多様なユーザとユースケースを満たす可能性が高いです。その他のケースでは、ユーザーにいくつかのオプションを提案することが最適な場合があります。

・設計プロセスの早い段階で潜在的な不都合なフィードバックをモデル化し、完全な展開前に、一部のデータを用いて特定のテストを反復して実施します。

・多様なユーザーおよびユースケースのシナリオを考慮し、プロジェクト開発の前後に意見を集めて組み込む。これにより、さまざまなユーザーの視点がプロジェクトに組み込まれ、技術の恩恵を受ける人の数が増えます。

（２）トレーニングとモニタリングを評価するために複数の指標を設定しましょう
1つではなく複数の指標使用すると、さまざまな種類のトレードオフを理解するのに役立ちます。

・ユーザーアンケートからのフィードバック、システム全体のパフォーマンスと短期および長期の製品寿命（たとえば、クリックスルー率と顧客のライフタイムバリュー）を追跡する数量、および異なるサブグループにわたってスライスされた偽陽性率と偽陰性率を含む指標を検討します。

・システムの状況や目標に適した指標があることを確認します。例えば、火災警報システムでは、時折、誤ったアラームが発生するとしても、少しでも疑いがある時は警報を鳴らす必要があります。

（３）可能であれば、生のデータを直接調べてください
機械学習モデルは訓練元のデータを反映するので、生のデータを慎重に分析して理解してください。

・あなたのデータに間違い（値の不足、ラベルの誤りなど）は含まれていますか？

・データは、ユーザーを表すように抽出されていますか？
たとえば、すべての年代のユーザが使用するのにAIは高齢者データのみを使って学習させているとか、たとえば、一年中使用されるシステムだが夏の期間のデータだけを学習に使用させるなど。データは正確でしょうか？

・トレーニング中のパフォーマンスとサービス中のパフォーマンスの違い。この歪みは永続的な課題です。訓練中に、潜在的な歪みを特定し、訓練データや目的関数を調整するなど、それらに対処するように努めましょう。評価中、展開された設定のできるだけ代表的な評価データを取得しましょう。

・モデル内に冗長か不要な特徴量はないですか？パフォーマンス目標を満たす最も単純なモデルを使用してください。

・教師付き学習では、データラベルと予測しようとしている項目との関係を考慮してください。本当はラベルYを予測したいのに代替ラベルでラベルXを使用している場合、XとYの間のギャップが問題になりませんか？

・データのバイアスも重要な考慮事項です。 AIと公平性に関する実践についてもっと学びましょう。

（４）データセットとモデルの限界を理解しましょう

・相関関係を検出するために訓練されたモデルは、因果関係を推論するために使用されるべきではありません。またはそれが可能であることを示唆してもなりません。たとえば、あなたのモデルで、バスケットボールシューズを購入する人が平均して背が高いことがわかったとしましょう。これは結果的にバスケットボールシューズを購入するとユーザーの身長が高くなることを意味しません。

・現在の機械学習モデルは、主に学習に使ったデータのパターンを反映しています。したがって、学習の範囲と適用範囲を伝えることが重要であり、人工知能の能力と限界を明確にする必要があります。たとえば、靴の在庫写真で訓練された靴検出器は、在庫写真では上手く動作することができますが、ユーザーが投稿した携帯電話の写真でテストすると検出率は大幅に落ちます。

・可能であれば、ユーザーに制限を伝えましょう。たとえば、特定の鳥を認識するために機械学習を使用するアプリは、機械学習が世界の特定の地域の少数の鳥画像だけを使って学習したことを伝えるべきかもしれません。ユーザーがより適切にアプリに習熟することで、機能やアプリケーションについてユーザーから提供されるフィードバックも改善することもできます。

（５）テスト、テスト、テスト
AIシステムが意図したとおりに動作し、信頼できることを確認するために、ソフトウェアエンジニアリングの最善のテストプラクティスと品質エンジニアリングから学びます。

・システムの各機能を単独でテストするための厳密なユニットテストを実行します。

・個々の機械学習の機能がシステム全体の他の部分とどのように相互作用するかを理解するための統合テストを実施する。

・AIシステムへの入力のブレ幅をテストして、AIシステムが予想外の出力をする事がないようにします。

・良く使われる標準なデータセットを使用してシステムをテストし、期待どおりに動作することを確認します。ユーザーとユースケースの変更に合わせてこのテストセットを定期的に更新し、再トレーニングの必要性を減らします。

・反復ユーザーテストを実施して、開発サイクルでさまざまなユーザーのニーズを組み込みましょう。

・poka-yokeの品質エンジニアリングの原則を適用します：意図しない欠損が起こらないように、またはエラー検出時に即時の応答できるうような品質チェックをシステムに組み込みましょう。（例えば、重要な機能が予期せず欠落した場合、AIシステムは予測を出力しないなど）

※poka-yoke「ポカを除ける」トヨタ生産方式の基本概念の一つ

（６）リリース後も引き続きシステムの監視と更新を行いましょう
継続的なモニタリングにより、実際のパフォーマンスとユーザーフィードバック（幸福追跡調査、HEART frameworkなど）を考慮したモデルが確実に作成されます。

・問題は発生します。世界のどのモデルも、定義によってはほとんど不完全です。問題を解決できるよう、製品ロードマップに解決のための時間を組み込みます。

・短期的および長期的な問題の解決策を検討してください。簡単な修正（ブラックリストやホワイトリストなど）は、問題をすばやく解決するのに役立ちますが、長期的には最適な解決策ではない可能性があります。短期の場当たり的なシンプルな修正と長期的な根本的な解決のバランスをとってください。

・リリース済みのモデルをアップデートする前に、リリース候補とリリース済みモデルがどのように異なるか、およびアップデートがシステム全体の品質とユーザーエクスペリエンスにどのように影響するかを分析しましょう。