Translatotron:入力された音声を外国語の音声に直接翻訳する試み(1/2)

  • 2019.05.19
  • AI
Translatotron:入力された音声を外国語の音声に直接翻訳する試み(1/2)

1.Translatotron:入力された音声を外国語の音声に直接翻訳する試み(1/2)まとめ

・従来の音声翻訳システムは入力された音声を一旦テキストにし、それを翻訳して再び音声に戻していた
・Translatotronは中間のテキストを生成せずに翻訳元音声から直接、翻訳先の音声を生成する
・中間テキストを経由しないモデルは2016年から研究が本格化しポテンシャルが高い事がわかっている

2.Translatotronとは?

以下、ai.googleblog.comより「Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model」の意訳です。元記事は2019年5月15日、Ye JiaさんとRon Weissさんによる投稿です。

音声翻訳システムは、異なる言語を話す人々が互いに会話するのを助けるために、過去数十年にわたって開発されてきました。このような音声翻訳システムは、従来は分割モデル、すなわち3つの別々の部品からシステムが構成されています。

自動音声認識システム(automatic speech recognition):音声をテキストとして書き出すシステム
機械翻訳システム(machine translation):書き出されたテキストを目的の言語に翻訳するシステム
テキスト音声合成システム(TTS:text-to-speech synthesis)翻訳されたテキストから音声を生成するシステム

音声翻訳を分割モデルで実現する手法は非常な成功を収めており、Google翻訳を含む多くの市販の音声翻訳製品の力の源となっています。

論文、「Direct speech-to-speech translation with a sequence-to-sequence model」で、私達は、中間のテキスト表現に頼ることなく、音声変換を直接実現する単一モデル、すなわちattentive sequence-to-sequenceモデルに基づいた実験的な新しいシステムを提案しています。

訳注:以下、原文では、Translatotronを「end-to-end system」、従来の3分割して実現する手法を「cascade system」として対比しています。end-to-endは直訳すると「端から端まで」、cascadeは「次々と繋がっていく」の意味ですが、カタカナ英語としてはあまり馴染みなく意味が捉えにくく感じたので、end-to-endを「単一の」、cascadeを「分割の」と意訳しています。

Translatotronと呼ばれるこのシステムは、音声翻訳システムを別々に分割していないため、従来の音声翻訳システムに比べていくつかの利点があります。より速い推論速度、認識と翻訳の間に発生する複合的なエラーを自然に回避すること、翻訳後も元の話者の声を保持する事を容易にする事、翻訳する必要のない単語(名詞や固有名詞など)をより適切に簡単に処理できるようにする事などです。

Translatotron
音声翻訳における単一モデルの発案は2016年に始まりました。当初、音声をテキストに変換し、更にテキストを翻訳する作業に、単一モデルを適用する事の実現可能性が研究されました。2017年には、このような単一モデルが分割モデルよりも優れていることを実証しました。近年、音声からテキストへの翻訳モデルをさらに改善するための多くのアプローチが提案されており、その中にはWeakly Supervised Data を活用する私達の研究も含まれています。

Translatotronは、分割モデルが必要とするどちらかの言語の中間テキスト表現に頼ることなく、単一モデルがある言語の音声を別の言語の音声に直接翻訳できることを実証し、さらに研究を推し進めます。Translatotron は、翻訳元言語の音声スペクトログラムを入力として受け取り、翻訳先言語に翻訳した会話内容を翻訳先言語の音声スペクトログラムで生成するsequence-to-sequenceに基づいています。

それはまた2つの別々に訓練された部品を利用しています。翻訳先言語の音声スペクトログラムをタイムドメインwaveformに変換するニューラルボコーダー、およびオプションで、翻訳元音声の話者の声の特性を維持し、合成した翻訳先言語の音声に適用可能なきるスピーカーエンコーダです。

トレーニング中、 sequence-to-sequenceモデルは、ターゲットの音声スペクトログラムを生成するために、マルチタスクで翻訳元と翻訳先のトランスクリプトを同時に扱います。しかし、推論中にはトランスクリプトまたはその他の中間テキスト特徴表現は使用されません。


Translatotronのアーキテクチャ

 

3.Translatotron:入力された音声を外国語の音声に直接翻訳する試み(1/2)関連リンク

1)ai.googleblog.com
Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model

2)arxiv.org
Direct speech-to-speech translation with a sequence-to-sequence model
Neural Machine Translation by Jointly Learning to Align and Translate
Leveraging Weakly Supervised Data to Improve End-to-End Speech-to-Text Translation
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
Generalized End-to-End Loss for Speaker Verification

3)google-research.github.io
Audio samples from “Direct speech-to-speech translation with a sequence-to-sequence model”