Googleがスピーチとその原稿から音声合成を作り出すTacotron 2を発表

  • 2018.01.10
  • AI
Googleがスピーチとその原稿から音声合成を作り出すTacotron 2を発表

1.Googleがスピーチとその原稿から音声合成を作り出すTacotron 2を発表まとめ

・非ネィティブには音声合成と人間の発音が区別できない時代が来ている
・TTS(text-to-speech、文章読上げシステム)も難単語を流暢に発音できるようになっている
・人工知能によって文法知識がなくてもTTSが作れる未来が来る

2.Tacotron 2の意義

人間と全然見分けが使ない!と盛り上がっていて、実際とても凄い。サンプルページの一番下の「Tacotron 2 or Human?」は私には全然わからないレベル。

サンプルページ

ただ、人間と見分けがほとんどつかないレベルの音声合成は他にも色々ある。日本でもヤマハの開発した音声合成システムVOCALOIDの初音ミクは有名だし職人芸でそれをもっともっと人間に近づける試みも盛ん。

初音ミクが人間の声に聞こえる!Mitchie_Mの神調教が凄すぎ

Googleの発表の真意は「スピーチとそのスピーチの原稿から人間っぽいスピーチを学習」って事。例えば、人間が英語を学習する時は文法を意識するように言われるが、人工知能も従来は文法解析の前処理が必要だった。また、音声データはそのままでは扱いにくいので音声から波形などの特徴量を抜き出す必要もあった。しかし、今回はそういった文法解析だの特徴量抜き出しなどを入力データに使ってない。

言い換えれば、ボンジュールマドモアゼルしかフランス語を知らなくてもフランス人のお嬢さんと十分な原稿が用意できれば、フランス語を流暢に読み上げるTTS(text-to-speech)を作れる未来が迫ってきてますよって事。

例によって人工知能と膨大な計算機パワーで、
・SVだのSVOCだの文法解析をベースとする従来の翻訳手法
・人間の発音に近づけるためにパラメータを細かくチューニングする職人芸
等々が圧倒されてしまう近未来。

まだまだ先の話にはなるとは思うけど、応用すればコールセンターのオペレータマニュアルから自動応答システムの骨組みを作る事ができそうだから自動応答システム導入の敷居がとても下がりそう。

3.その他のTacotron 2の特徴

  • 専門的な単語や複合語もそこそこ対応できます(完璧ではないらしい)
  • 文法を意識してread(過去形のレッド)reads(現在系のレッズ)を読み分けます
  • スペルミスがあっても大丈夫。
  • 全部大文字で書かれた文字はちゃんと強調して読みわけます。
  • 疑問文ではちゃんと語尾を上げて韻を意識します。
  • 早口言葉も綺麗に発音できます。
  • 外国の地名などもそれがわかるように発音できます。

4.関連リンク

googleblog
Tacotron 2: Generating Human-like Speech from Text

techcrunchの記事
Googleが音声合成を機械学習で訓練する方法Tacotron 2を発表、システムの調教が楽になる

スラドの記事
人間そっくりの音声を合成可能なGoogleの音声合成システム「Tacotron 2」

元の論文
Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions