TALNet:Google Photosで動画から特別な瞬間を切り出す(2/2)

学習手法

1.TALNet:Google Photosで動画から特別な瞬間を切り出す(2/2)

・二次元データを扱うFaster R-CNNを一次元の時系列データに応用するためには3つの課題があった
・時間に変動が大きい事、前後の状況が重要な事、入力情報が複数存在しそれぞれを考慮すべき事
・これらのチューニングの結果、TALNetを他の手法と比べて競争力のある手法にする事ができた

2.時間的行動の局所化(temporal action localization)とは?

以下、ai.googleblog.comより「Capturing Special Video Moments with Google Photos」の意訳です。元記事は2019年4月3日、Sudheendra VijayanarasimhanさんとDavid Rossさんによる投稿です。

時間的行動の局所化についての考察

時間的行動の局所化は、物体検出問題を1Dに拡張したケースと見なすことができますが、いくつかの固有の問題に対処するように注意を払わなければなりません。具体的には、時間的行動の局所化にFaster R-CNNアプローチを応用するために3つの課題に対処し、それらを具体的に解決するためにアーキテクチャを再設計しています。

1)動画内のアクションは、時間の経過による変動がはるかに激しい
特別な行動が行われる時間間隔は、わずか数秒から数分まで劇的に変化します。長い行動では、行動の各フレームを理解することは重要ではありません。

そのため、拡張された時間的畳み込みを使用して、ビデオをすばやく抜出することで、アクションをよりよく処理することができます。このアプローチにより、TALNetは、与えられた拡張率に基づいた代替フレームをスキップしながら、ビデオから時間的パターンを検索することができます。基準となるビデオの長さに応じて自動的に選択されるいくつかの異なるレートでビデオを分析することで、ビデオ全体と同程度の長さのアクションでも、1秒程度の短いアクションでも効率的に識別できます。

2)動画内のアクションの前後の状況が重要になる
特別な行動の前後には、局所化と分類のための重要な情報が含まれています。事前事後の情報は、物体検出より時間的行動の局所化で間違いなく重要になります。したがって、提案生成段階および分類段階の両方で、切出された動画の前後を、切出し動画の長さに応じて固定割合だけ拡張して符号化する事によって時間的な流れを明示的にします。

3)アクションはマルチモーダルな入力(視覚・聴覚などの複数の入力)を必要とする
特別な行動は、外観、動きそして時には音声情報によっても定義されます。したがって、最良の結果を得るためには、複数の特徴量を考慮することが重要です。

提案生成ネットワークと分類ネットワークの両方にlate fusion schemeを使用します。それぞれの入力情報は別々の提案生成ネットワークを持ち、その出力はまとめられて最終提案のセットとなります。これらの提案は入力毎に別々の分類ネットワークを使用して分類され、最終的な予測を得るために平均されます。

TALNetの実例
これらの改善の結果として、TALNetはTHUMOS’14 detection benchmarkの行動検出タスク及び行動局所化タスクので最先端のパフォーマンスを達成し、ActivityNet challengeでも競争力のあるパフォーマンスを達成します。現在、人々がビデオをGoogle Photosに保存するたびに、Googleのモデルが動画から印象的な瞬間を自動で識別し、共有するためのアニメーション画像を作成します。以下は私たちの最初のテスターによって共有されたいくつかの事例です。


検出されたアクションの例「滑り台を滑り落ちる(sliding down a slide)」


検出されたアクションの例「プールに飛び込む」(左)、「ドレスを着て回転する」(中央)、「赤ちゃんにスプーンでご飯をたべさせる」(右)などがあります。

次のステップ
より多くのデータ、特徴量、モデルを使用して、時間的行動の局所化の精度と再現率を向上させるための作業を継続しています。時間的行動の局所化の改善は、ビデオのハイライト、ビデオの要約、検索など、数多くの重要なトピックの進歩を促進する可能性があります。私たちは、この分野の最先端技術を継続的に改善し、同時に人々が大きな出来事も小さな出来事も記憶し、思い出すためのより多くの方法を提供したいと考えています。

謝辞
Tim NovikoffとYu-Wei Chao、そしてBryan Seybold、Lily Kharevych、Siyu Gu、Tracy Gu、Tracy Utley、Yael Marzan、Jingyu Cui、Balakrishnan Varadarajan、Paul Natsev、このプロジェクトへの彼らの重要な貢献に感謝します。

 

3.TALNet:Google Photosで動画から特別な瞬間を切り出す(2/2)

1)ai.googleblog.com
Capturing Special Video Moments with Google Photos

2)arxiv.org
Rethinking the Faster R-CNN Architecture for Temporal Action Localization

 

コメント

タイトルとURLをコピーしました