video analysis

Vid2Seq：ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(2/2)

１．Vid2Seq：ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(2/2)まとめ・Vid2Seqアーキテクチャにはビデオフレーム用のエンコーダー音声入力用のエンコーダーが含まれる・Vid2Seqモデル幅広い領域をカバーする...

2023.04.22

モデル

１．Vid2Seq：ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)まとめ・数分レベルの長さのビデオの中のすべてのイベントを説明するタスクを「高密度ビデオキャプション」という・標準的なビデオキャプションと比べて高度に...

2023.04.21

モデル

１．UVQ：YouTubeの知覚的なビデオ品質を機械的に測定(2/2)まとめ・従来は手動で特徴量を設計しMOSでビデオ評価を行う手法が一般的だった・３つのサブネットワークを自己教師学習させて統合する事で自動化を実現・UGCの主観的評価...

2022.08.28

アプリケーション

１．iterative co-tokenization:動画内でボウルに注がれた2番目の食材が何か答えられるようにする(2/2)まとめ・反復的共同トークン化アルゴリズムは他の最新モデルよりも性能とサイズに優れる・計算量も他の手法よりも低...

2022.08.13

学習手法基礎理論

１．MBT：動画における新しいモダリティ融合モデル(1/3)まとめ・人は複数の感覚からの入力を通して世界と関わり情報を組み合わせる事が可能・同様に複数の入力を取扱可能なモデルをマルチモーダルな機械学習モデルという・MBTと呼ぶ動画にお...

2022.03.29

モデル学習手法

１．SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(3/3)まとめ・SPLは様々な事前学習手法のいずれよりも優れておりどのようなデータセットにも適用可能・SPLは学習を複雑にせず教師-生徒ベースの学習フレーム...

2022.03.23

モデル学習手法

１．SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(2/3)まとめ・SPLは、教師-生徒学習の枠組みを発展させたシンプルな手法で教師モデルと生徒モデルからなる・動画検索時に使用したテキストと教師が予測したラベ...

2022.03.22

モデル学習手法

１．SPL:ゆるくラベル付けされた動画に疑似的なラベルを付与して動画認識を改善(1/3)まとめ・動画認識モデルの学習には大量の動画に手動で注釈を付ける必要がある場合が多く労力がかかる・ゆるくラベル付けした動画から視覚的知識を学習する手法...

2022.03.21

モデル学習手法

１．CoVeR：画像と動画で協調学習を行い行動認識を改善(2/2)まとめ・CoVeRで学習したモデルは追加微調整を行う事なく複数のデータセットに直接適用可能・複数のデータセットで協調学習したCoVeRは標準的な手法よりも良い結果を出す事...

2022.03.14

モデル学習手法

１．XIRL:人と形状が異なるロボットは人から学ぶ事が出来るのか？(1/2)まとめ・人は他人から学ぶがロボットも同じようにする事ができないか考えた・しかしロボットは人間と物理的に異なる構造を持つため人間の模倣が困難・XIRLは動画から...

2022.02.15

ロボット学習手法

１．TokenLearner：柔軟にトークン化する事でVision Transformerの効率と精度を向上(2/2)まとめ・Vision Transformerはトークンの数が多くなってしまう事がボトルネックとなっていた・本研究では多...

2021.12.28

学習手法

１．MMCC:ラベル付けされていない動画から将来を予測する(2/2)まとめ・MMCCはラベル無しで時間的なサイクルを見つけるようにモデルを学習させる・学習完了後MMCCはビデオの複雑な変化を捉えて意味のある状態変化を識別可能・時間的に...

2021.11.30

モデル