Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(3/3)

１．Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(3/3)まとめ

・Parrotronはエンドツーエンドで音声を変換するため従来のカスケード型システムより優位性がある
・第一に仮に誤認識をしても、音響的に似た音声になるため、聴き手が意図を察する事が可能
・第二に従来になかった新しい単語や外国語/固有名詞、更には完全に無意味な単語でも対応可能

２．エンドツーエンドの優位性

以下、ai.googleblog.comより「Parrotron: New Research into Improving Verbal Communication for People with Speech Impairments」の意訳です。元記事は2019年7月17日、Fadi BiadsyさんとRon Weissさんによる投稿です。

カスケードシステムとエンドツーエンドシステムの比較

訳注：カスケード手法、つまり、「音声認識システム」と「合成音声システム」のように２つ以上のシステムを連動させる従来手法より、音声を音声に直接変換するエンドツーエンド手法の方が優位性があるとの主張はエンドツーエンド翻訳のTranslatotronでも紹介されていました。

人間が外国語を学ぶ際も、ヒアリング、スピーキング、ライティングと別々に学んでいても中々、スムーズに会話できるようにはなりません。「外国語を頭の中で訳さないでそのまま理解できるようになりましょう」とエンドツーエンドを薦める学習方法がありますが、おそらく、その方が効率的なんだろうな、とは思います。人工知能の分野でもエンドツーエンドが、これからの主流になるのだろうな、と思います。

Project Euphoniaは、聴覚に困難を抱える人向けに調整したspeech-to-textモデルを構築し、その結果、単語誤認識率を89％から25％に減らしました。現在進行中の研究もこれらの結果を更に改善する可能性があります。

Project Euphoniaのspeech-to-textモデルを使用して音声をテキストに書き起こし、その出力をTTS(text-to-speech)システムに渡して音声合成すれば、Parrotronと同様な事が実現できます。

ただし、このような「音声認識システムで音声を文書に変換」し「合成音声システムで変換した文書を読み上げる」、いわゆるカスケードアプローチでは、音声認識機能が単語を誤認識する可能性があります。(Project Euphoniaの場合でも25%、およそ四回に一回）。

そして、誤認識された文書からは、意図しない意味を持つ単語や文が生成される可能性があり、その結果、これらの単語を音声に変換した合成音声は話者の意図からは程遠いものになります。

Parrotronの目指している学習目標「エンドツーエンドで入力音声を出力音声に直接変換する」から考えると、仮に誤認識が発生した場合でも、生成された出力音声は入力音声と音響的に似ている可能性が高いのです。従って、話者の本来の意図は大幅に変更される可能性が低く、聴き手が意図した内容を理解することは依然として可能です。

Dimitri「What is definition of rhythm?」

Parrotron (男性版）「What is definition of rhythm?」

Dimitri saying「How many ounces in one liter?」

Parrotron (男性版）「Hey Google, How many unces [sic] in one liter?」

訳注：Dimitriさんが「一リットルは何オンスですか？」と質問したがParrotronは元発言の「ounces(オンス)」を「uncessic(卑劣な)」とも聞こえるように発音してしまっている

Google Assistant saying「One liter is equal to thirty-three point eight one four US fluid ounces」

訳注：Parrotronは発声を厳密に転換する事が出来ていなかったが、この質問を受けたGoogle Assistantは元の意図をくみ取った回答を返せている

Aubrie「Is it wheelchair accessible?」

Parrotron(女性版):「Is it wheelchair accecable [sic]?」

さらに、Parrotronは事前定義済みの語彙セットの中から単語を選ぶ事に強く依存していないため、モデルに与えられる音声入力に、従来になかった新しい単語や外国語/固有名詞、更には完全に無意味な単語が含まれていても対応できます。

アメリカ英語で学習させたParrotronモデルに、アラビア語やスペイン語の音声を入力すると、出力音声が入力音声をアメリカ人のアクセントで発音したようになる事がよくあります。

このような振る舞いは、ASR(音声認識システム)の後にTTS(音声合成システム)を実行することによって得られる結果とは質的に異なります。

最後に、独立して個々に調整されたニューラルネットワークの組み合わせから、単一のニューラルネットワークへ移行する事によって、私たちはまた、大幅な改善と単純化があると信じています。

まとめ
Parrotronは非定型な発声を使用しているユーザーが、他の人々との会話や音声インターフェースの利用を助け、相互理解する事を容易にします。Parrotronはエンドツーエンドの音声変換アプローチで、従来手法のように音声を一旦テキストに書き起こす事をしないため、ユーザーの意図した音声をそのまま再現できる可能性が高くなります。

Parrotronを使ったよりエキサイティングなアプリケーションは私たちの論文「Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation」内で議論されています。そして追加のオーディオサンプルは私たちのgithubレポジトリにあります。

貴方がこの進行中の研究に参加したい場合、以下の「Google Project Euphonia – Interest Form」に記入して、一連の音声フレーズを録音して提供する事に志願してください。私達はあなたと働くのを楽しみにしています！

謝辞
このプロジェクトは、SpeechチームとGoogle Brainチームの共同作業です。貢献者には以下の皆さんが含まれます。Fadi Biadsy, Ron Weiss, Pedro Moreno, Dimitri Kanevsky, Ye Jia, Suzan Schwartz, Landis Baker, Zelin Wu, Johan Schalkwyk, Yonghui Wu, Zhifeng Chen, Patrick Nguyen, Aubrie Lee, Andrew Rosenberg, Bhuvana Ramabhadran, Jason Pelecanos, Julie Cattiau, Michael Brenner, Dotan Emanuel, Joel Shor, Sean Lee そして Benjamin Schroeder。ALS-TDIとコラボレーションする事によって、データ収集の取り組みは飛躍的に加速しました。