KYD:データセット探索用の新ツール(1/2)

データセット

1.KYD:データセット探索用の新ツール(1/2)まとめ

・Know Your Data(KYD)はデータ内の性別と年齢に関する偏見を見つける事ができるツール
・例えば画像の説明文が「男性」や「女性」で性別による偏りを見つける事ができる
・偏ったデータを使うとモデルがステレオタイプを学習するリスクがあるのでKYDは重要

2.Know Your Dataとは?

以下、ai.googleblog.comより「A Dataset Exploration Case Study with Know Your Data」の意訳です。元記事の投稿は2021年8月9日、Mark DíazさんとEmily Dentonさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Elisabeth Wales on Unsplash

データは、機械学習(ML:Machine Learning)の研究開発の多くの根底にあり、機械学習アルゴリズムが学習する内容と、モデルの評価およびベンチマーク手法を構造化するのに役立ちます。ただし、データの収集とラベル付けは、無意識の偏見、データアクセスの制限、プライバシーに関する懸念などの課題によって簡単には出来ない可能性があります。その結果、機械学習データセットは、人種、性別、年齢などの側面に沿った不公平な社会的バイアスを反映してしまう可能性があります。

データセット内で様々な社会集団がどのように表現されているかをを調べる手法は、MLモデル開発とデータセットが私達のAI原則に沿っていることを確認するための重要な要素です。

このような手法は、MLデータセットの責任ある使用法を通知し、不公正な結果の潜在的な緩和策を示すことができます。たとえば、以前の調査では、一部の物体認識データセットが北米と西ヨーロッパからの画像に偏っていること(訳注:例えば白いウェンディングドレスではなく民族衣装を着ていると結婚式として認識されないなどの弊害がでます)を示しており、世界の他の地域での画像特徴表現のバランスを取るためのGoogleのクラウドソースの取り組みを促しています

本日は、COCOキャプションデータセットをケーススタディとして使用して、最近Google I/Oで導入されたデータセット探索ツール「Know Your Data(KYD)」の機能の一部を紹介します。このツールを使用して、COCOで付与されている説明文にさまざまな性別と年齢のバイアスを見つける事ができます。これらのバイアスの源は、データセットの収集と注釈の実践の両方にたどることができます。

KYDは、Googleと幅広い研究コミュニティで開発されている責任あるAIツール(responsible AI tools)の増え続けるツール群を補完するデータセット分析ツールです。現在、KYDは画像データセットの小さなセットの分析のみをサポートしていますが、このセットを超えてツールを利用可能にするために懸命に取り組んでいます。

Know Your Dataの紹介

Know Your Dataは、機械学習研究、及び製品開発チームやコンプライアンスチームがデータセットを理解するのに役立ち、データ品質を向上させ、公平性とバイアスの問題を軽減することを目的としています。

KYDは、ユーザーが機械学習データセットを探索および調査できるようにするさまざまな機能を提供します。ユーザーは、特定のデータセットにすでに存在する注釈に基づいて、相関関係をフィルタリング、グループ化、および調査できます。KYDは、GoogleのCloud Vision APIから自動的に計算されたラベルも表示し、データセットに元々存在していなかった信号に基づいてデータを探索する簡単な方法をユーザーに提供します。

KYDのケーススタディ

ケーススタディとして、COCO Captionsデータセットを使用して、これらの機能のいくつかを調査します。COCO Captionsデータセットは、30万を超える画像ごとに5つの人間が生成したキャプションを含んでいる画像データセットです。自由形式のテキストによって提供される豊富な注釈があるため、データセット内にすでに存在する信号の分析に集中します。

ジェンダーバイアスの調査

以前の調査では、女性のポルノ画像や有害な性別の決めつけと画像ラベルの相関関係など、コンピュータービジョンデータセット内の望ましくない性別の偏りがある事が示されています。KYDを使用して、画像キャプション内の性別の相関関係を調べることにより、COCOキャプション内の性別バイアスを調査します。データセット内の画像全体のさまざまな活動の描写に性別のバイアスがありました。また、注釈作業者がさまざまな性別の人々をどのように記述するかに関してもバイアスが存在しました。

分析の最初の部分は、データセットに示されているさまざまな活動に関する性別のバイアスを明らかにすることを目的としました。さまざまな活動を説明する単語で説明文が付けられた画像を調べ、「男性(man)」や「女性(woman)」などの性別の説明単語との関係を分析しました。

KYDのRelationsタブでは、2つの信号が偶然に予想されるよりも多く(または少なく)発生する程度を視覚化することにより、データセット内の2つの異なる信号間の関係を簡単に調べることができます。各セルは、2つの特定の信号値間の正(青色)または負(オレンジ色)の相関と、その相関の強さを示します。

KYDを使用すると、ユーザーは入力文字列が部分一致する行をフィルタリングすることもできます。この機能を使用して、動詞でフィルタリングする簡単な方法として、最初に「-ing」を含むキャプション単語を調べました。私たちはすぐに強い性別の相関関係を見ました。


KYDを使用して、「任意の単語」と「性別に関する単語」の関係性を分析します。各項目は、2つのそれぞれの性別に関する単語が同じ説明文内で、純粋な偶然よりも多い(上矢印)または少ない頻度(下矢印)で同時に発生しているか否かを表現します。

これらの相関関係をさらに掘り下げてみると、いくつかの活動がステレオタイプとして性別に関連していることがわかりました。例えば、「買物(shopping)」や「料理(cooking)」など、いくつかの活動は「女たち(women)」または「女性(woman)」が「男たち(men)」または「男性(man)」より関連が高くなっていました。

対照的に「スケートボード(skateboarding)」、「サーフィン(surfing)」、「スノーボード(snowboarding)」など、多くの身体に特化的な活動を説明する説明文は、「男たち(men)」または「男性(man)」の説明文とより高い割合で共起します。

個々の画像の説明文は、以下の例のようにステレオタイプまたは蔑称的な言葉を使用しない場合がありますが、データセット全体で特定の活動に特定の性別グループが過大(または過小)に表現されている場合、データセットから開発されたモデルはステレオタイプの関連付けを学習するリスクがあります。 KYDを使用すると、このリスクを簡単に表面化、定量化、および軽減するための計画を立てることができます。


「ベージュと白色のキッチンで料理をしている2人の女性」という説明文が付いた画像
(Image licensed under CC-BY 2.0)

3.KYD:データセット探索用の新ツール(1/2)関連リンク

1)ai.googleblog.com
A Dataset Exploration Case Study with Know Your Data

2)knowyourdata.withgoogle.com
Know Your Data

3)www.tensorflow.org
責任ある AI  |  Responsible AI Toolkit  |  TensorFlow

タイトルとURLをコピーしました