YouTube-8Mセグメントデータセットの発表

１．YouTube-8Mセグメントデータセットの発表まとめ

・従来のYouTube-8Mデータセットは機械的に付与したラベルと同程度の品質のビデオレベルラベルであった
・YouTube-8Mセグメントデータは人間が目で付与した時間的に特定されたセグメントレベルラベルを持つ
・ビデオレベルラベルとセグメントレベルラベルの併用で時間的特定の研究が前進する事が期待される

２．YouTube-8Mセグメントデータとは？

以下、ai.googleblog.comより「Announcing the YouTube-8M Segments Dataset」の意訳です。元記事は2019年6月28日、 Joonseok LeeさんとJoe Yue-Hei Ngさんによる投稿です。

過去2年間、第1回と第2回YouTube-8M大規模ビデオ理解チャレンジとワークショップは、60以上の国から1000以上のチームが集い、大規模ビデオ理解に関する研究を更に前進させてきました。

これらのイベントはビデオ分類の大きな進歩を可能にしましたが、それらが基づいたYouTubeデータセットは機械的に付与したラベルと同程度の品質であり、きめ細かく時間的に特定された情報が欠けています。そのため、ビデオコンテンツを予測する機械学習モデルの機能が制限されていました。

時間の概念を特定する(temporal concept localization)研究を加速するために、YouTube-8Mセグメントを発表します。これはYouTube-8Mデータセットの新しい拡張で、YouTube-8Mビデオの一部に5秒間の人間が確認したセグメントレベルのラベルが含まれています

時間的注釈が追加されたことで、YouTube-8Mは現在、大規模動画分類データセットであると同時に時間的特定データセット(temporal localization dataset)でもあります。

更に、私たちは時間的特定に焦点を当てたコンペをKaggleのビデオ理解チャレンジとして開催、および2019年のコンピュータビジョンに関する国際会議(ICCV’19)でYouTube-8M大規模ビデオ理解に関する第三回ワークショップを開催します。

YouTube-8Mセグメントデータセット
ビデオを時間的に分割してラベルを付ける「セグメントレベルのラベル」は、ビデオ単位に付与される「ビデオレベルのラベル」では不可能な時間的位置特定のための貴重な資料となり、ビデオ内の特別な瞬間を切り出すなどの新しいアプリケーションを可能にします。

YouTube-8Mセグメント拡張を作成する際、ビデオの全てのセグメント(断片)を徹底的に人手でラベル付けする代わりに、YouTube-8M検証データセットからランダムに選択したビデオごとに手動で平均5つのセグメントに対してラベル付けをしました。1000カテゴリにわたる合計237,000のセグメントに対してです。

このデータセットを、機械が自動で生成した非常に多数のビデオレベルラベルを含む以前のYouTube-8Mと組み合わせると、時間的特定モデルを斬新な方法で学習することができます。

ノイズの多いビデオレベルのラベルしか利用できない場合、そのようなビデオ分類モデルを評価することはもちろん非常に困難です。新しく追加された人間が付与した注釈が、研究者が彼らのアルゴリズムをより正確に確実に評価する事の助けになることを願っています。

第3回YouTube-8Mビデオ理解チャレンジ
今年のYouTube-8Mビデオ理解チャレンジは、時間的特定に焦点を当てています。関心のある概念に、より適切に注釈を付け、時間的に特定するために、参加者は、ノイズの多いビデオレベルのラベルとセグメントレベルの小さな検証セットを併用することをお勧めします。

昨年とは異なり、モデルサイズの制限はありません。

トップ10までに入賞した各チームには、ICCV’19に参加するためにソウルまでの旅費が$2,500ドル支援されます。詳細はKaggleのコンペに関するページをご覧ください。

YouTube-8M大規模ビデオ理解に関する第3回ワークショップ
過去2年間の伝統を受け継ぎ、第3回ワークショップでは、優秀な研究者による4本の招待講演と、トップクラスのパフォーマンスを出したチャレンジ参加者による発表が行われます。

参加を希望される方には、YouTube-8Mデータセットに基づいた研究、実験、またはアプリケーション、前述のチャレンジへの参加を要約した論文などを提出する事をオススメします。詳しくはワークショップのページをご覧ください。

この最新の拡張が、現実世界で起こり得るシナリオに似た、時間的特定のためのユニークな遊び場として役立つことが私たちの願いです。私達はまた、新しいチャレンジとワークショップが、大規模なビデオ理解の研究を進化させると信じており、楽しみにしています。
あなたが再び私たちに加わることを願っています！

謝辞
この記事は、以下の方々を含む、機械知覚研究者の研究成果を反映しています。
Ke Chen, Nisarg Kothari, Joonseok Lee, Hanhan Li, Paul Natsev.Joe Yue-Hei Ng, Naderi Parizi, David Ross, Cordelia Schmid, Javier Snaider, Rahul Sukthankar, George Toderici, Balakrishnan Varadarajan, Sudheendra Vijayanarasimhan, Yexin Wang, Zheng Xu.

KaggleのJulia ElliottとWalter Readeにも感謝します。YouTubeのパートナーからのサポートとアドバイスにも感謝しています。