MIAP:Open Images Datasetの人間に付与された境界ボックスをより包含的に(1/2)

データセット

1.MIAP:Open Images Datasetの人間に付与された境界ボックスをより包含的に(1/2)まとめ

・Open Images ExtendedコレクションにMIAPデータセットを追加する事を発表
・MIAPデータセットは元のOpen Imagesデータセットに人物用の境界ボックスを追加
・Open Imagesの各注釈は知覚される性表現や年齢範囲に曖昧な部分があった

2.MIAPとは?

以下、ai.googleblog.comより「A Step Toward More Inclusive People Annotations in the Open Images Extended Dataset」の意訳です。元記事は2021年6月25日、Candice SchumannさんとSusanna Riccoさんによる投稿です。

ちょっと前にGoogleが人工知能の公平性を研究していた研究者を解雇、というニュースが報道されていたと思うのですが、あの件で後に解雇された方が「自分が在籍中に2年かけて研究していた事だ」とツイートされてた公平性に関する研究です。

あの一件はまとめようかな、とも思ったのですが議論がかみ合ってなかったので止めときました。私の理解する限り一方の主張は「Google社内で規定される事前レビューの期日までに論文を出さず直前に提出し、認められないのならば辞めると言ったので退社を認めた」で、もう一方の主張は「辞めるなんって言ってない。社内レビューなんて形式的なもので検閲だ!」でした。

Googleで行われている全研究を年初に振り返る「Google Research:2020年の振り返りと2021年以降に向けて」シリーズの糞長さを実感している私の個人的な意見だと「レビュー期限は守ってあげないと見る側は確かに厳しいだろうし、公平性を掲げるなら自分だけ特別扱いを求めるのは如何なものか」と言う気はしました。とは言っても、Google側を絶対善と思っているわけでもないのですが。

アイキャッチ画像のクレジットはPhoto by John-Mark Smith on Unsplash

2016年、私達はOpen Imagesデータセットを発表しました。このデータセットには、数千の物体カテゴリにまたがる画像ラベルと、600クラスに対して境界ボックス注釈が付けられた約900万枚の画像が含まれています。

それ以降、物体注釈の多様性を改善するために、クラウドソーシングされたデータをOpen Images Extendedコレクションにリリースするなどのいくつかの更新を行いました。これらのデータセットで提供されるラベルは広範でしたが、公平性の評価やバイアスの軽減など、多くの機械学習(ML:Machine Learning)の公平性タスクにとって非常に重要な人々のセンシティブな属性に焦点を当てていませんでした。実際、このようなセンシティブな属性の完全なラベル付けを含むデータセットを見つけることは、特にコンピュータービジョンの領域では困難です。

本日、Open Images ExtendedコレクションにMIAP(More Inclusive Annotations for People)データセットを追加する事を発表します。このコレクションには、人物を含む10万枚の画像の人物クラス階層のより完全な境界ボックス注釈が含まれています。

各注釈には、知覚される性表現や知覚される年齢範囲など、公平性に関連する属性もラベル付けされています。責任あるAI研究の一環として不公平なバイアスを減らすことにますます焦点が当てられているため、これらの注釈によって、すでにOpen Imagesを活用している研究者が公平性分析を研究に組み込むようになることを願っています。


MIAPの新しい境界ボックスの例
マゼンタ色の境界ボックスは元のOpen Imagesデータセットからのものであり、黄色のボックスがMIAPデータセットによって追加された追加のボックスです。
元の写真クレジット
左:ボストン公立図書館
真ん中:jen robinson
右:Garin Fons
すべてCC-BY2.0ライセンスの下で許可を得て使用されています。

Open Imagesデータセットの注釈

元のOpen Imagesデータセットの各画像には、特定の物体の周囲に描画された画像と境界ボックスを大まかに説明する画像レベルの注釈が含まれています。

同じ物体の周りに複数の境界ボックスが描画されないようにするために、ラベル候補セットから特定性の低いクラスが一時的に削除されました。これは、階層的重複排除(hierarchical de-duplication)と呼ばれるプロセスです。たとえば、動物、猫、洗濯機のラベルが付いた画像には、猫と洗濯機の注釈が付いた境界ボックスがありますが、冗長なクラスである動物の境界ボックスは付いていません。

MIAPデータセットは、元のOpen Imagesデータセットの人物階層の一部である5つのクラス(人物、男性、女性、男の子、女の子)に対応しています。これらのラベルの存在により、Open Imagesデータセットは、責任あるAIを進める研究にとって非常に価値があり、公平性分析とバイアス軽減のために性別および年齢範囲固有のラベルにアクセスできる汎用人検出器をトレーニングできます。

3.MIAP:Open Images Datasetの人間に付与された境界ボックスをより包含的に(1/2)関連リンク

1)ai.googleblog.com
A Step Toward More Inclusive People Annotations in the Open Images Extended Dataset

2)storage.googleapis.com
Open Images Extended

タイトルとURLをコピーしました