SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(1/3)

モデル

1.SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(1/3)まとめ

・動画認識モデルの学習には大量の動画に手動で注釈を付ける必要がある場合が多く労力がかかる
・ゆるくラベル付けした動画から視覚的知識を学習する手法が関心を高めているがノイズが問題
・SPLは弱いラベルを拡張して疑似ラベルを作成する事でノイズの多いデータを有用に活用する

2.SPLとは?

以下、ai.googleblog.comより「Learning from Weakly-Labeled Videos via Sub-Concepts」の意訳です。元記事は2022年3月7日、Zizhao ZhangさんとGuanhang Wuさんによる投稿です。

疑似ラベルをイメージしたアイキャッチ画像のクレジットはアイキャッチ画像のクレジットはPhoto by norbert braun on Unsplash

動画認識(video recognition)は、動画内容の解析から行動認識(action recognition)まで幅広く応用されているコンピュータビジョンの中核的なタスクです。しかし、動画認識のためのモデルを学習するには、トリミングされていない動画に手動で注釈を付ける必要がある場合が多く、法外な時間がかかる場合があります。

注釈付きの動画を収集する労力を軽減するために、ゆるくラベル付けした動画から視覚的知識を学習すること、すなわち、人手を介さずに注釈を自動生成する事が、簡単に利用可能な大量の動画データが増えたおかげで、研究の関心を高めています。

例えば、動画検索は、動画認識モデルが分類可能なクラスに対してキーワードを入力する事で取得されることが多いです。これを実現する際は、元動画に対して、弱いラベル(weak labels)と呼ばれるキーワードが付与されています。弱いラベルを付与した映像は大規模に収集しやすいですが、弱いラベルは検証されていないため、これを用いた学習は、堅牢なモデルを開発する上で別の課題をもたらします。

最近の研究では、ラベルノイズ(例えば、元動画に付与された誤ったラベル)に加えて、時間的に正確でない事を原因とする時間的ノイズがあることが示されています。すなわち、元動画内にラベル対象ではない他の内容が含まれていたり、ラベル付けされた行動が動画のごく一部にしか映っていない事もあります。

弱い教師付き事前学習を大規模に行う際にノイズの影響を低減することは重要ですが、実現は特に困難です。最近の研究では、ターゲットとなる行動のより正確な時間的位置を得るために短い動画(例えば、長さが1分程度)を使用したり、教師モデルを適用して動画をフィルタリングすることで、より良い結果を得られることが示されています。

しかし、このようにデータを前処理する事は、利用可能な動画データ、特に内容が豊富な長い動画データをモデルが十分に活用することを妨げます。

論文「Learning from Weakly-Labeled Web Videos via Exploring Sub-Concepts」では、このような問題に対して、シンプルな学習フレームワークを用いて、トリミングされていない元動画に対して効果的な事前学習を行う解決策を提案します。

このアプローチは、単純に潜在的な時間的ノイズをフィルタリングするのではなく、元の弱いラベル空間を拡張する意味のある「中間的な(middle ground)」疑似ラベルの新しいセットを作成することによって、このような「ノイズの多い」データを有用な教師に変換します。

この新しい概念を我々はサブ疑似ラベル(SPL:Sub-Pseudo Label)と呼んでいます。このモデルは、より「きめ細かい(fine-grained)」空間上で事前学習され、その後、ターゲットデータセット上で微調整されます。

私達の実験では、学習された特徴表現が従来のアプローチよりもはるかに優れていることが実証されました。更に、SPLは、Google Cloud Video AIの行動認識モデルの品質向上に有効であることが示されています。このAIでは、コンテンツ制作者が保有する膨大なビデオ資産のライブラリを容易に検索し、関心のあるコンテンツを素早く調達することができます。


サンプリングされた学習用クリップは、トリミングされていないビデオ全体のクエリラベル(例:クッキーを焼く)とは異なる視覚的アクション(例:卵を泡立てる)を表す場合があります。SPLは、2つの関連するアクションクラスを用いて、新しい「中間」擬似クラス(すなわち、サブコンセプト)のセットを作成し、潜在的なラベルノイズを持つデータを有用な教師信号に変換します。このようにして、SPLは効果的なモデルの事前学習のために、より充実した教師を提供します。

3.SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(1/3)関連リンク

1)ai.googleblog.com
Learning from Weakly-Labeled Videos via Sub-Concepts

2)arxiv.org
Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts

タイトルとURLをコピーしました