音声

モデル

VDTTS:視覚駆動型の音声合成モデル(2/2)

1.VDTTS:視覚駆動型の音声合成モデル(2/2)まとめ ・TTSおよびTTS with length hintの両モデルより様々な観点でVDTTSは大きく優れている ・VDTTSはビデオフレームのみを使って話者が何を話しているかを予測す...
モデル

VDTTS:視覚駆動型の音声合成モデル(1/2)

1.VDTTS:視覚駆動型の音声合成モデル(1/2)まとめ ・ノイズの多い環境で録音されたオリジナルの音声をスタジオで再録音し品質を高める時がある ・新たに録音した音声と映像の同期を取る必要がありこの作業は難しく、面倒な作業となる ・VDT...
データセット

CVSS:大規模多言語音声間翻訳データセット(1/2)

1.CVSS:大規模多言語音声間翻訳データセット(1/2)まとめ ・ある言語の音声を別の言語の音声に自動翻訳する事を音声合成翻訳(S2ST)という ・S2STは直接翻訳するタイプと複数システムを連結して実現する2種が存在する ・直接型のS2...
基礎理論

CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(3/3)

1.CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(3/3)まとめ ・生徒モデルをマッチングさせる手法はグローバルとローカルの2種があるがローカルを使った ・パラ言語情報の中間特徴表現は徐々に増加し、次に減少し、再び増加する二峰...
基礎理論

CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(2/3)

1.CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(2/3)まとめ ・CAP12に基づくモデルは8つのパラ言語タスクの5つでタスク特化モデルよりも優れている ・CAP12をスマートフォンで使えるようにするため知識蒸留を使用して既...
基礎理論

CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(1/3)

1.CAP12:音声の抑揚を理解する小型で普遍的な音声特徴表現(1/3)まとめ ・機械システムは口調、感情、マスク有無など、パラ言語的な側面に苦戦している ・最先端モデルは超大規模なモデルであるためモバイル機器上の実行は現実的でない ・6つ...
モデル

Translatotron 2:音声間直接翻訳アプローチの品質を更に改良(2/2)

1.Translatotron 2:音声間直接翻訳アプローチの品質を更に改良(2/2)まとめ ・翻訳前後で話者の声を保持するために同じ話者の声を使用してS2STモデルをトレーニングする ・多数のバイリンガルに協力して貰うのは難しいのでPnG...
モデル

Translatotron 2:音声間直接翻訳アプローチの品質を更に改良(1/2)

1.Translatotron 2:音声間直接翻訳アプローチの品質を更に改良(1/2)まとめ ・音声間翻訳システムは通常、音声認識や機械翻訳、音声合成を順番に適用して実現 ・2019年には2言語間で翻訳元音声を翻訳先音声に直接翻訳できるTr...
基礎理論

SoundStream:ビットレート可変なニューラルオーディオコーデック(2/2)

1.SoundStream:ビットレート可変なニューラルオーディオコーデック(2/2)まとめ ・理想的なコーデックはネットワーク状態に応じてビットレートを変更できる能力が必要 ・SoundStreamは「量子化器ドロップアウト」と呼ばれる新...
基礎理論

SoundStream:ビットレート可変なニューラルオーディオコーデック(1/2)

1.SoundStream:ビットレート可変なニューラルオーディオコーデック(1/2)まとめ ・SoundStreamはスマートフォンのCPUでリアルタイムに実行可能で音声と音楽を処理できる ・単一モデルで可変ビットレートで高品質を実現する...
アプリケーション

人工内耳に高度な音声強調技術を適用(2/2)

1.人工内耳に高度な音声強調技術を適用(2/2)まとめ ・刺激パルスを固定時間間隔にするために細かい時間的構造を犠牲にしている事で品質が低下 ・パルス生成処理を音の波形のピークに合わせるようにすると明瞭さが増すように聞こえる ・課題はあるが...
アプリケーション

人工内耳に高度な音声強調技術を適用(1/2)

1.人工内耳に高度な音声強調技術を適用(1/2)まとめ ・人工内耳(CI)は外部サウンドプロセッサを介して聴覚神経を電気的に刺激する電子デバイス ・補聴器は音を増幅させるだけだがCIは音声を電気刺激として感じさせる事が出来る ・CIでノイズ...