MIAP：Open Images Datasetの人間に付与された境界ボックスをより包含的に(2/2)

１．MIAP：Open Images Datasetの人間に付与された境界ボックスをより包含的に(2/2)まとめ

・Open Imagesは「女の子」のラベルを「女性」に付与するかは作業者の感覚依存であった
・MIAPでは知覚された性別表現と年齢表現を別々に付与するようにして改善した
・その結果10万枚の画像で人物の境界ボックスの数が約358,000から約454,000に増加

２．MIAPの概要

以下、ai.googleblog.comより「A Step Toward More Inclusive People Annotations in the Open Images Extended Dataset」の意訳です。元記事は2021年6月25日、Candice SchumannさんとSusanna Riccoさんによる投稿です。

「知覚された性別表現(perceived gender presentation)が「主に女性的(predominantly feminine)」、「主に男性的(predominantly masculine)」と言う言い回しは公平性の概念に言及する際には覚えておいた方が良いのだろうな、と思います。

アイキャッチ画像のクレジットはPhoto by John-Mark Smith on Unsplash

ただし、階層的重複排除と、女性/女の子、男性/男の子の間に社会的に課せられた区別の組み合わせにより、元の注釈に制限が生じることがわかりました。例えば、注釈作業者がクラス「女の子」のために境界ボックスを描くように求められた場合、画像内の男の子の周りにボックスを描くことはありません。しかし、彼らは、個人的な年齢の評価と「女の子」の概念の文化的理解に応じて、「女性」の周りに境界ボックスを描く場合と描かない場合があります。

これらの決定は、個々の注釈作業者の持つ文化的背景、個人の外観、および風景の状況に応じて、画像間で一貫性のない方法で適用される可能性があります。その結果、一部の画像の境界ボックスの注釈は不完全であり、一部の人々は目立って表示されていても注釈が付けられていませんでした。

MIAPデータセットの注釈

新しいMIAPアノテーションは、これらの制限に対処し、機械学習の公平性研究の新たな進歩を可能にするデータセットとしてのOpen Imagesの約束を果たすように設計されています。階層から最も具体的なクラス(女の子など)のボックスを描画するようにアノテーターに要求するのではなく、手順を逆にして、性別や年齢にとらわれない人物クラスの境界ボックスを常に要求します。

次に、全ての人物ボックスは、知覚された性別表現(perceived gender presentation)、(「主に女性的(predominantly feminine)」、「主に男性的(predominantly masculine)」、または「不明(unknown)」)と年齢表現(「若い(young)」、「中年(middle)」、「年配(older)」、または「不明(unknown)」)のラベルに個別に関連付けられます。

私達は性別は二元的ではなく、個人の性同一性が知覚または意図された性別の表現と一致しない可能性があることを認識しています。そして、注釈に対する無意識の偏見の影響を軽減するために、性表現に関する規範は文化によって異なり、時代とともに変化する事を注釈作業者に思い出させました。

この手順により、以前は欠落していたかなりの数のボックスが追加されます。

人を含む10万枚の画像で、人物の境界ボックスの数が約358,000から約454,000に増加しました。知覚された性表現および知覚された年齢提示あたりの境界ボックスの数は一貫して増加しました。これらの新しい注釈は、人物検出器をトレーニングするためのより完全なグラウンドトゥルースと、コンピュータービジョン研究に公平性を組み込むためのより正確なサブグループラベルを提供します。

元のOpen Imagesと新しいMIAPデータセット間の人物を対象とした境界ボックスの数の比較

使用目的

これらの注釈は、画像理解の分野内の保護されたサブグループ全体の不公平な偏見や異なるパフォーマンスをよりよく理解し、軽減および排除する能力を向上させるために必要であると考えているため、知覚年齢範囲および人の境界ボックスの性別表現の注釈を含めます。

ラベルは、個人の自己識別された性別や実際の年齢ではなく、視覚的な手がかりのみに基づいて第三者によって評価された性別と年齢範囲の見た目を捕捉する事に注意してください。公平性調査以外でのこれらのテクノロジーの使用は、関連するリスクが潜在的なメリットを上回ると考えられるため、これらの注釈からトレーニングされた性別および/または年齢のプレゼンテーション分類子の構築または展開をサポートまたは容認しません。

謝辞

本研究の背後にあるコアチームには、Utsav Prabhu, Vittorio Ferrari, そして Caroline Pantofaruが含まれています。また、プロジェクトに貢献してくれたAlex Hanna, Reena Jana, Alina Kuznetsova, Matteo Malloci, Stefano Pellegrini, Jordi Pont-Tuset, そして Mahima Pushkarnaにも感謝します。