タコトロンによる音声合成の表現力を向上

１．タコトロンによる音声合成の表現力を向上まとめ

・Googleが文書読み上げシステムTacotronでprosodyを実現
・prosodyとは発話の強弱やリズム、イントネーションで話者固有の抑揚
・動画からノイズを取り除いてスピーチの再構築するなど応用範囲が広い

２．Tacotronでprosodyを実現

Google内でも、近年のニューラルネットワークを使用した文書読み上げシステム（TTS）の急速な進歩に活気だっている。特に去年発表したTacotronシステムの音声合成は、人間の声と区別が難しいレベルの自然な発音を実現した。これは会話アシスタントやオーディオブックのナレーション、ニュースリーダーなど様々な音声を使ったソフトウェアの使い勝手向上に貢献するだろう。

しかし、真に人間らしい音声を実現するためには、TTSはprosody（発話の強弱やリズム、イントネーション）を学ばなければならない。Tacotronを含め、近年のほとんどのTTSシステムはprosodyを意識できていない。そのため、人間らしくとも単調な読み上げになる。例えば、オーディオブックの緊迫した場面や様々なキャラクターの感情が籠ったセリフなども全て抑揚のないナレーションで読み上げられる事になってしまうのだ。

本日、Googleはこの問題に対処する２つの論文を発表した。最初の論文「Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron」では、prosodyを埋め込む手法について紹介している。Tactronの構造を拡張し、prosodyエンコーダーを新規に追加した。エンコーダーで手本となる音声データからprosodyを学習し、それを合成先の音声に加えるのだ。

これにより、
１）アメリカ人の発音にオーストラリア人のイントネーションを埋め込んだ合成音声を実現

２）発声内容が異なっていてもフレーズと長さと構造が似ていれば、 prosodyを適用させる事に成功
For the first time in her life she had been danced tired.
↓
For the last time in his life he had been handily embarrassed.

３）Tacotronの訓練データに含まれない音声からprosodyを学習する事に成功

が実現できた。

しかし、これらの成功にも関わらず、真の解決には至らなかった。２）のように構造が似ていないとprosodyの適用が難しいし、手本となる音声データが必要になる。prosodyを含んだ音声表現をモデル化できないだろうか？

第二の論文「Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis」では、これに挑戦した。

我々は、話者固有の「話し方」をモデリングするための新しい教師なし学習手法を考案した。具体的にはTacotronにアテンションの手法を追加し、音声データから話者のスタイル（歯擦、調子、熱情など）をトークンとして抜き出すのだ。我々はこの拡張を Global Style Tokens (GSTs)と読ぶ事にした。GSTsを使い、我々は手本となる音声データを使わずに、様々な長さの異なったセンテンスを、陽気に、怒って、嘆き悲しんで、発声させる事ができるようになった。

最終的に２つ目の論文では、GSTsが単に話し方を真似るだけでなく、雑音が混ざったYoutube動画から、雑音トークンと音声トークンを分ける事ができるのを示した。これは、GSTsを使って、Youtube動画からノイズを取り除いたスピーチを合成したり、または音声データから任意の話者のスピーチを合成できることを意味する。