Open Images V5とICCV 2019 Open Images Challengeの発表(1/2)

１．Open Images V5とICCV 2019 Open Images Challengeの発表(1/2)まとめ

・セグメンテーションマスクを新しく追加した画像データセットOpen Images V5が新しく公開される
・セグメンテーションマスク方式は物体を輪郭レベルで明確化するので境界ボックス方式より範囲を明確可能
・人間のプロの注釈作業者がニューラルネットワークが出力した結果を繰り返し修正する新手法で作成

２．Open Images V5とは？

以下、ai.googleblog.comより「Announcing Open Images V5 and the ICCV 2019 Open Images Challenge」の意訳です。元記事は2019年5月8日、Vittorio Ferrariさんによる投稿です。2020年2月追記：Open Imagesの最新は現在V6です。

2016年、私達は何千ものカテゴリ毎にラベルが付けられた約900万枚の画像データセットであるOpen Imagesを共同でリリースしました。それ以来、アップデートを繰り返し2018年にはOpen Images V4を発表しています。合計で、600カテゴリを15.4万の境界ボックスで囲い込み、30万以上のビジュアルリレーションシップアノテーション(訳注：「ギターを弾いている女性」とか「テーブルの上のビール」など)を持つ最大のデータセットとなりました。

本日、一連のアノテーションにセグメンテーションマスクを追加するOpen Images V5と、このデータに基づいて新しいインスタンスセグメンテーショントラックを提供する2回目のOpen Images Challengeを発表いたします。

Open Images V5
Open Images V5は、350のカテゴリを持ちます。各カテゴリは画像データセット内で約280万個のセグメンテーションマスクとして実装されています。物体が配置されている領域を矩形で囲う従来の境界ボックス方式と異なり、セグメンテーションマスク方式は対象物体を輪郭レベルで明確化し、物体が写っている範囲をより詳細に特定できます。

Open Images V5のトレーニングセットのサンプルマスクの例。これらは私たちの対話型セグメンテーションプロセスによって作り出されました。一番右上は、比較のために境界ボックス方式です。左上から、Tim Reganの「Fitzwilliam美術館での紅茶とケーキ」、「Pilota II」 by Euskal kultur erakundea Institut culturel basque、「Rheas」 by Dag Peak、「Wuxi science park, 1995」 by Gary Stevens、「新宿の猫カフェ」 by Ari Helminen、「無題」 by Todd Huffman、全ての画像はCCライセンスVersion2.0の下で使用しています。

訳注：対話型セグメンテーションプロセスとはFluid Annotationをもう少し賢くした2019年3月に発表された手法の事のようです。下部リンクにarxiv.orgへのリンクを張っておきます。

トレーニングセット(268万枚)上のセグメンテーションマスクは、人間のプロの注釈作業者がセグメンテーションニューラルネットワークが出力する結果を繰り返し修正する、最先端のインタラクティブセグメンテーションプロセスによって作成されました。これは手動描画だけよりも効率的で、同時に正確なマスクを提供します。(IoU:84％、intersection-over-unionとはマスクした領域と本当にマスクされるべきであった領域との重なり具合を示す指標)さらに、品質を重視して手作業で注釈が付けられた検証およびテストセット用の9,900のマスクをリリースします。

参考：Open Images V5のセグメンテーションマスクの正確な数