音声

AI

VDTTS:視覚駆動型の音声合成モデル(2/2)

1.VDTTS:視覚駆動型の音声合成モデル(2/2)まとめ ・TTSおよびTTS with length hintの両モデルより様々な観点でVDTTSは大きく優れている ・VDTTSはビデオフレームのみを使って話者が何を話しているかを予...
AI

VDTTS:視覚駆動型の音声合成モデル(1/2)

1.VDTTS:視覚駆動型の音声合成モデル(1/2)まとめ ・ノイズの多い環境で録音されたオリジナルの音声をスタジオで再録音し品質を高める時がある ・新たに録音した音声と映像の同期を取る必要がありこの作業は難しく、面倒な作業となる ・...
AI

CVSS:大規模多言語音声間翻訳データセット(1/2)

1.CVSS:大規模多言語音声間翻訳データセット(1/2)まとめ ・ある言語の音声を別の言語の音声に自動翻訳する事を音声合成翻訳(S2ST)という ・S2STは直接翻訳するタイプと複数システムを連結して実現する2種が存在する ・直接型...
AI

CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(3/3)

1.CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(3/3)まとめ ・生徒モデルをマッチングさせる手法はグローバルとローカルの2種があるがローカルを使った ・パラ言語情報の中間特徴表現は徐々に増加し、次に減少し、再び増加する...
AI

CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(2/3)

1.CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(2/3)まとめ ・CAP12に基づくモデルは8つのパラ言語タスクの5つでタスク特化モデルよりも優れている ・CAP12をスマートフォンで使えるようにするため知識蒸留を使用し...
タイトルとURLをコピーしました