text-to-speech

VDTTS：視覚駆動型の音声合成モデル(2/2)

１．VDTTS：視覚駆動型の音声合成モデル(2/2)まとめ・TTSおよびTTS with length hintの両モデルより様々な観点でVDTTSは大きく優れている・VDTTSはビデオフレームのみを使って話者が何を話しているかを予測す...

2022.04.24

モデル

１．VDTTS：視覚駆動型の音声合成モデル(1/2)まとめ・ノイズの多い環境で録音されたオリジナルの音声をスタジオで再録音し品質を高める時がある・新たに録音した音声と映像の同期を取る必要がありこの作業は難しく、面倒な作業となる・VDT...

2022.04.23

モデル

１．Google Research：2019年の振り返りと2020年以降に向けて(2/8)まとめ・AIの他の分野への応用では様々な組織とコラボし多くの論文発表や芸術作品に繋がった・日常生活を支援するAIとしては視覚、聴覚、音声に困難を抱...

2020.01.14

入門／解説

１．長文を読みあげる合成音声の品質を評価する(1/2)まとめ・合成音声の品質評価は従来１文ごとに行われており、文脈の中で評価する統一基準は存在しない・しかし評価対象の文を長い文章の一部として評価すると従来と来なる評価基準が採用されている...

2019.09.14

入門／解説

１．Google LensのGoogle Goバージョン(2/2)まとめ・OCRエンジンの誤読に備えて、文脈やナレッジグラフから手がかりを得て精度を上げている・翻訳した文章が元の文章のどの部分に該当するかわかるように着色を行う・カラオ...

2019.09.11

AI関連その他

１．学習データが少ない言語でテキスト読み上げシステムを作成まとめ・コーパス（言語資料）が少ないマイナー言語でTTSを作る研究についての最終報告・言語間で最大限に共有可能な音韻表現を設計し、それをベースに学習させた・最終的には学習データ...

2018.09.10

基礎理論

１．Googleがスピーチとその原稿から音声合成を作り出すTacotron 2を発表まとめ・非ネィティブには音声合成と人間の発音が区別できない時代が来ている・TTS（text-to-speech、文章読上げシステム）も難単語を流暢に発音...

2018.01.10

学習手法