cross-modal

モデル

AI Choreographer:音楽に合わせたダンスを生成する人工知能(2/2)

1.AI Choreographer:音楽に合わせたダンスを生成する人工知能(2/2)まとめ ・FACTはMotion、Audio、Cross-Modalの3種のTransformerから構成される ・full-attention mask...
学習手法

XMC-GAN:クロスモーダルな対照学習でテキストから画像を生成(2/2)

1.XMC-GAN:クロスモーダルな対照学習でテキストから画像を生成(2/2)まとめ ・XMC-GAN は各データセットで最先端のスコアを実現し他の手法より評価者に好まれた ・特により複雑なOpenImagesでもXMC-GAN は高品質の...
学習手法

XMC-GAN:クロスモーダルな対照学習でテキストから画像を生成(1/2)

1.XMC-GAN:クロスモーダルな対照学習でテキストから画像を生成(1/2)まとめ ・テキストの説明文から画像を生成する合成タスクは最近大きな注目を集めている ・従来の画像合成手法はGANを使うケースが多いがモード崩壊などの問題を抱える ...
モデル

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(2/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(2/3)まとめ ・ビデオ内の画像とテキストを組み合わせたクロスモーダルな文章を元にVideoBERTを学習させた ・VideoBERTを、料理、ガーデニング、車両修理など、10...