Googleがスピーチとその原稿から音声合成を作り出すTacotron 2を発表

１．Googleがスピーチとその原稿から音声合成を作り出すTacotron 2を発表まとめ

・非ネィティブには音声合成と人間の発音が区別できない時代が来ている
・TTS（text-to-speech、文章読上げシステム）も難単語を流暢に発音できるようになっている
・人工知能によって文法知識がなくてもTTSが作れる未来が来る

２．Tacotron 2の意義

人間と全然見分けが使ない！と盛り上がっていて、実際とても凄い。サンプルページの一番下の「Tacotron 2 or Human?」は私には全然わからないレベル。

ただ、人間と見分けがほとんどつかないレベルの音声合成は他にも色々ある。日本でもヤマハの開発した音声合成システムVOCALOIDの初音ミクは有名だし職人芸でそれをもっともっと人間に近づける試みも盛ん。

Googleの発表の真意は「スピーチとそのスピーチの原稿から人間っぽいスピーチを学習」って事。例えば、人間が英語を学習する時は文法を意識するように言われるが、人工知能も従来は文法解析の前処理が必要だった。また、音声データはそのままでは扱いにくいので音声から波形などの特徴量を抜き出す必要もあった。しかし、今回はそういった文法解析だの特徴量抜き出しなどを入力データに使ってない。

言い換えれば、ボンジュールマドモアゼルしかフランス語を知らなくてもフランス人のお嬢さんと十分な原稿が用意できれば、フランス語を流暢に読み上げるTTS（text-to-speech）を作れる未来が迫ってきてますよって事。

例によって人工知能と膨大な計算機パワーで、
・ＳＶだのＳＶＯＣだの文法解析をベースとする従来の翻訳手法
・人間の発音に近づけるためにパラメータを細かくチューニングする職人芸
等々が圧倒されてしまう近未来。

まだまだ先の話にはなるとは思うけど、応用すればコールセンターのオペレータマニュアルから自動応答システムの骨組みを作る事ができそうだから自動応答システム導入の敷居がとても下がりそう。