Translatotron:入力された音声を外国語の音声に直接翻訳する試み(2/2)

  • 2019.05.20
  • AI
Translatotron:入力された音声を外国語の音声に直接翻訳する試み(2/2)

1.Translatotron:入力された音声を外国語の音声に直接翻訳する試み(2/2)まとめ

・Translatotronの翻訳品質は現時点ではまだ従来手法のシステムに劣る
・しかし、従来システムでは難しい声質の保存や推論速度の速さなどポテンシャルは高い
・Translatotronは音声を別の言語の音声に直接翻訳できる最初のエンドツーエンドモデル

2.Translatotronのパフォーマンス

以下、ai.googleblog.comより「Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model」の意訳です。元記事は2019年5月15日、Ye JiaさんとRon Weissさんによる投稿です。

パフォーマンス
Translatotronの翻訳品質をBLEUスコア(Bilingual Evaluation Understudy:人間が翻訳した文章に似ている度合を示すスコア)を測定することによって、検証しました。結果は、従来の分割型翻訳システムに遅れをとっていますが、私達は単一型翻訳システムの実現可能性を実証しました。

訳注:原文は、Translatotronを「end-to-end system」とし、従来の3分割して実現する手法(自動音声認識システム,機械翻訳システム,テキスト音声合成システム)を「cascade system」と対比しています。end-to-endは直訳すると「端から端まで」、cascadeは「次々と繋がっていく」の意味ですが、エンドツーエンドはネットワーク関係、カスケードはweb関係の人でなければ馴染みないのではないかと感じたので、end-to-endを「単一型」、cascadeを「分割型」と途中で意訳しています。

以下のオーディオクリップで比較されているのは、Translatotronによる音声音訳と、従来の分割型システムによる音訳翻訳の比較です。

どちらのシステムも適切な翻訳を行い、自然に発声します。

Input (スぺイン語)

リファレンス音声 (英語)

分割型システムによる音声翻訳

Translatotronによる音声翻訳

下部リンクからより多くのオーディオサンプルを聞くことができます。

声質の保存
スピーカーエンコーダネットワークを組み込むことで、Translatotronは翻訳先スピーチに翻訳元文章の話者の声質を保持する事もできます。これにより、翻訳されたスピーチがより自然になり、耳障りになりません。この機能は、話者の特定TTSを特定の話者の声質に適応させるこれまでのGoogleの研究を活用したものです。

スピーカーエンコーダは話者特定タスクを用いて事前訓練され、短いサンプル音声から話者の特性を符号化することを学習します。このエンコード方式でスペクトログラムデコーダを調整すると、例え、異なる言語間であっても、元の話者の特性を持つ同等音声を合成することが可能になります。

以下のオーディオクリップは、翻訳元の話者の声を翻訳された言語の音声に変換したときのTranslatotronのパフォーマンスを示しています。

この例では、Translatotronは比較対象の分割型モデルよりも正確な翻訳を提供しながら、元のスピーカーの声質を保持する事が出来ています。翻訳元の話者の声質を保持する声質保存版Translatotronの出力は、標準的な音声を使用するTranslatotronより少ないデータでトレーニングされるため、わずかに異なる翻訳を出力します。

入力(スペイン語)

参照された英語

従来の分割型システムによる音声翻訳

Translatotronによる音声翻訳(正規版)

Translatotronによる音声翻訳(声質保存版)

まとめ
私たちの知る限り、Translatotronはある言語の音声を別の言語の音声に直接翻訳できる最初のエンドツーエンドのモデルです。また、翻訳した合成音声に翻訳元の話者の声質を残すこともできます。この研究が、エンドツーエンドの音声合成システムに関する将来の研究の出発点として役立つことを願っています。

謝辞
本研究は、Google Brain、Google Translate、およびGoogle Speechチームの共同研究です。貢献者にはYe Jia, Ron J. Weiss, Fadi Biadsy, Wolfgang Macherey, Melvin Johnson, Zhifeng Chen, Mengmeng Niu, Quan Wang, Jason Pelecanos, Ignacio Lopez Moreno, Tom Walters, Heiga Zen, Patrick Nguyen, Yu Zhang, Jonathan Shen, Orhan Firat, and Yonghui Wu.Translatotronによる翻訳の品質を検証してくれたJorge PereiraとStella Laurenzoにも感謝します。

 

3.Translatotron:入力された音声を外国語の音声に直接翻訳する試み(2/2)関連リンク

1)ai.googleblog.com
Introducing Translatotron: An End-to-End Speech-to-Speech Translation Model

2)arxiv.org
Direct speech-to-speech translation with a sequence-to-sequence model
Neural Machine Translation by Jointly Learning to Align and Translate
Leveraging Weakly Supervised Data to Improve End-to-End Speech-to-Text Translation
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
Generalized End-to-End Loss for Speaker Verification

3)google-research.github.io
Audio samples from “Direct speech-to-speech translation with a sequence-to-sequence model”