モデル Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)
1.Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(1/2)まとめ ・数分レベルの長さのビデオの中のすべてのイベントを説明するタスクを「高密度ビデオキャプション」という ・標準的なビデオキャプションと比べて高度に...
モデル
モデル
モデル
AI関連その他
AI関連その他
AI関連その他
AI関連その他
モデル
モデル
基礎理論
ロボット
データセット