video analysis

モデル

Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(2/2)

1.Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(2/2)まとめ ・Vid2Seqアーキテクチャにはビデオフレーム用のエンコーダー音声入力用のエンコーダーが含まれる ・Vid2Seqモデル幅広い領域をカバーする...
モデル

Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)

1.Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)まとめ ・数分レベルの長さのビデオの中のすべてのイベントを説明するタスクを「高密度ビデオキャプション」という ・標準的なビデオキャプションと比べて高度に...
アプリケーション

UVQ:YouTubeの知覚的なビデオ品質を機械的に測定(2/2)

1.UVQ:YouTubeの知覚的なビデオ品質を機械的に測定(2/2)まとめ ・従来は手動で特徴量を設計しMOSでビデオ評価を行う手法が一般的だった ・3つのサブネットワークを自己教師学習させて統合する事で自動化を実現 ・UGCの主観的評価...
学習手法

iterative co-tokenization:動画内でボウルに注がれた2番目の食材が何か答えられるようにする(2/2)

1.iterative co-tokenization:動画内でボウルに注がれた2番目の食材が何か答えられるようにする(2/2)まとめ ・反復的共同トークン化アルゴリズムは他の最新モデルよりも性能とサイズに優れる ・計算量も他の手法よりも低...
モデル

MBT:動画における新しいモダリティ融合モデル(1/3)

1.MBT:動画における新しいモダリティ融合モデル(1/3)まとめ ・人は複数の感覚からの入力を通して世界と関わり情報を組み合わせる事が可能 ・同様に複数の入力を取扱可能なモデルをマルチモーダルな機械学習モデルという ・MBTと呼ぶ動画にお...
モデル

SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(3/3)

1.SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(3/3)まとめ ・SPLは様々な事前学習手法のいずれよりも優れておりどのようなデータセットにも適用可能 ・SPLは学習を複雑にせず教師-生徒ベースの学習フレーム...
モデル

SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(2/3)

1.SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(2/3)まとめ ・SPLは、教師-生徒学習の枠組みを発展させたシンプルな手法で教師モデルと生徒モデルからなる ・動画検索時に使用したテキストと教師が予測したラベ...
モデル

SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(1/3)

1.SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(1/3)まとめ ・動画認識モデルの学習には大量の動画に手動で注釈を付ける必要がある場合が多く労力がかかる ・ゆるくラベル付けした動画から視覚的知識を学習する手法...
モデル

CoVeR:画像と動画で協調学習を行い行動認識を改善(2/2)

1.CoVeR:画像と動画で協調学習を行い行動認識を改善(2/2)まとめ ・CoVeRで学習したモデルは追加微調整を行う事なく複数のデータセットに直接適用可能 ・複数のデータセットで協調学習したCoVeRは標準的な手法よりも良い結果を出す事...
ロボット

XIRL:人と形状が異なるロボットは人から学ぶ事が出来るのか?(1/2)

1.XIRL:人と形状が異なるロボットは人から学ぶ事が出来るのか?(1/2)まとめ ・人は他人から学ぶがロボットも同じようにする事ができないか考えた ・しかしロボットは人間と物理的に異なる構造を持つため人間の模倣が困難 ・XIRLは動画から...
学習手法

TokenLearner:柔軟にトークン化する事でVision Transformerの効率と精度を向上(2/2)

1.TokenLearner:柔軟にトークン化する事でVision Transformerの効率と精度を向上(2/2)まとめ ・Vision Transformerはトークンの数が多くなってしまう事がボトルネックとなっていた ・本研究では多...
モデル

MMCC:ラベル付けされていない動画から将来を予測する(2/2)

1.MMCC:ラベル付けされていない動画から将来を予測する(2/2)まとめ ・MMCCはラベル無しで時間的なサイクルを見つけるようにモデルを学習させる ・学習完了後MMCCはビデオの複雑な変化を捉えて意味のある状態変化を識別可能 ・時間的に...