Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(1/3)

１．Parrotron：発声が困難な人のために音声コミュニケーションを改善する試み(1/3)まとめ

・発声に困難を抱える人々にとってスマートスピーカなどの音声インターフェースは利用が難しい
・Parrotronは流暢でない非定型の発声パターンを直接流暢な合成音声に変換するニューラルネットワーク
・従来手法は音声を一時的にテキストに変換し、そのテキストを読み上げていたため誤認識が多かった

以下、ai.googleblog.comより「Parrotron: New Research into Improving Verbal Communication for People with Speech Impairments」の意訳です。元記事は2019年7月17日、Fadi BiadsyさんとRon Weissさんによる投稿です。聴覚に困難を持つ人向けのシステムは音声を文字に書き起こすLive Transcribeと音声をクリアにするSound Amplifierがありますが、今回は発声に困難を持つ人向けのシステムであるParrotronの紹介です。

多くの人々は、話した事が聞き取られ、理解される事を当然の事と考えます。しかし、肉体的または神経学的状態によって引き起こされる発声に困難を抱えて暮らす何百万人もの人々にとっては、他人とコミュニケーションを取ろうとする事は困難であり、欲求不満につながる可能性があります。

自動音声認識(ASR:Automatic Speech Recognition、speech-to-textと呼ばれる時もあります)技術には直近で多くの進歩がありましたが、これらの技術を使用している機器は発声に困難を抱える人々にとって利用が難しいケースがあります。

更に、TTS(Text-to-Speech Synthesis 音声合成による文章読み上げシステム)の入力として音声認識を使うアプリケーションは、単語の置換、削除、および挿入の誤りを引き起こす可能性があります。

重要なのは、現在の技術的な環境では、音声を直接理解してくれるデジタルアシスタントやスマートスピーカなどの音声インターフェースへのアクセスが制限されてしまう事です。

それは最先端のツールの使用や体験から除外されることを意味し、発声に困難を抱える人と、そうでない人がアクセスできるツールのギャップを広げます。

本日、私達はParrotronを紹介します。Parrotronは現在進行中の研究プロジェクトで、音声関連技術を進歩させる私達の努力を継続させ、拡大します。発声に困難を抱える人や非定型の音声を持つ人々を支援するために、人や機械と音声でコミュニケーションを取れるようにします。

Parrotronは、非定型の発声パターンを持つ話者の音声を直接流暢な合成音声に変換するように訓練された単一のエンドツーエンドディープニューラルネットワークで構成されています。一時的にテキストを生成する中間ステップがないため、音声認識を行う必要がありません。

Parrotronのアプローチは音声中心であり、音声信号の観点からのみ問題を検討します。たとえば、唇の動きなどの視覚的な情報は必要ありません。

この研究を通して、Parrotronは、ALS(筋萎縮性側索硬化症)、聴覚困難、筋ジストロフィーなど、様々な非定型の発声パターンを持つ人々が、人間同士のコミュニケーションや自動音声認識エンジンの利用などで、相互理解を深めることができる事を示しました。

Parrotronの音声変換モデル
Parrotronはattention-based sequence-to-sequenceモデルで、入出力音声をペアにした並列コーパスを使用して２段階でトレーニングされます。

最初に、標準的な流暢な音声データを使って一般的なspeech-to-speech変換モデルを構築します。続いて、モデルのパラメータを、発声に困難を抱える人の非定型スピーチパターン用に調整するパーソナライズ段階が続きます。

このような２段階構成における主な課題は、教師付き学習に必要な並列訓練データの収集にあります。この訓練データは、多くの話者によって話された発声を、単一の話者による出力音声に対応させたデータです。

一人の話者が、高品質モデルに必要な何時間ものトレーニングデータを発声するのは現実的ではないので、ParrotronはTTSシステムで自動的に派生させた並列データを使用します。これにより、既存の匿名化された音声合成用のコーパスを転用する事が可能になります。