Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)

１．Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(2/2)まとめ

・ストリーミング翻訳モデルはライブ翻訳専用にモデルを再構築する手間がかかる
・マスキングとバイアスを組み合わせた独自の再翻訳アプローチで全体的に性能を向上
・表示済み単語を消去する事によるチラつきを減らしつつ高品質で低遅延な翻訳を実現

２．マスキングとバイアスの組み合わせ

以下、ai.googleblog.comより「Stabilizing Live Speech Translation in Google Translate」の意訳です。元記事の投稿は2021年1月26日、Naveen ArivazhaganさんとColin Cherryさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Muhammad Faiz Zulkeflee on Unsplash

３つの側面から品質を評価したところ、以前の書き起こし翻訳(Transcribe)は極端な位置づけになりました。それは、最小の遅延と最高のBLEUスコアを示しましたが、消去率も高かったのです。このトレードオフを理解することで、より良いバランスを見つけることに取り組むことができました。

再翻訳の安定化
消去を減らすための簡単な解決策の1つは、翻訳が更新される頻度を減らすことです。この方針で改善を進めるのであれば「ストリーミング翻訳モデル(STACLやMILkなど)」は、翻訳を固定するのに十分な翻訳元情報を受信した事を認識できるように学習を行うため、翻訳を変更する必要はありません。これにより、ストリーミング翻訳モデルを採用するのであれば消去0件を実現できます。

このようなストリーミング翻訳モデルの欠点は、Transcribeと同様に再び極端な位置付けになる事です。消去がゼロの場合、BLEUとラグを犠牲にする必要があります。消去を完全に排除するのではなく、時折不安定になるような小さな消去を許容する事は、より良いBLEUと遅延を可能にするかもしれません。

更に重要なことに、ストリーミング翻訳では、特にライブ翻訳専用のモデルを構築するために再トレーニングとメンテナンスが必要になります。100以上の言語をサポートするGoogle翻訳のような製品では、無駄のないモデル構築パイプラインを維持することが重要な考慮事項であるため、これによりストリーミング翻訳が採用できない場合があります。

2番目の論文「Re-translation versus Streaming for Simultaneous Translation」では、ライブ翻訳に対する独自の「再翻訳」アプローチを微調整して、消去を減らし、より有利な消去/遅延/BLEU間のトレードオフを実現できることを示しました。別途、特殊なモデルをトレーニングする事なしに、元の機械翻訳モデルに2つの推論時間に関する経験則を適用しました。マスク化とバイアスの追加です。

現在進行中の翻訳の末尾は、まだ受信していない翻訳元文に依存している可能性が高いため、ちらついてしまう傾向があります。翻訳元文の受信完了が観察されるまで、翻訳元文からいくつかの単語を切り捨てる(マスキング)する事で、このチラつきを減らします。

従って、このマスキングプロセスは、品質に影響を与えることなく、遅延と安定性を交換します。これは、Wait-kなどのストリーミング方法で使用される遅延ベースの戦略と非常に似ていますが、推論中にのみ適用され、トレーニング中には適用されません。

また、ニューラル機械翻訳は、同程度に優れた翻訳の間で綱引きが行われる事が多く、これは不必要な消去を引き起こします。既にユーザーに表示済みの翻訳にバイアスを加える事により、安定性を向上させます。消去を減らすことに加えて、バイアスは翻訳を早期に安定させることによって遅延を減らす傾向もあります。

不安定な訳である可能性が高い単語をマスキングすると、モデルがそれらにバイアスをかけるのを防ぐため、バイアスはマスキングとうまく相互作用します。ただし、バイアスが高く、マスキングが不十分であると品質に悪影響を与える可能性があるため、このプロセスは慎重に調整する必要があります。

マスキングとバイアスの組み合わせる事により、消去を実質的に排除しながら、高品質で低遅延の再翻訳システムが実現されます。次の表とグラフは、評価基準を元にマスクとバイアスの経験則がどのように反応するか、およびそれらが上記の他のシステムとどのように比較されるかを示しています。

System	BLEU	遅延	消去
Re-translation (old)	20.4	4.1	2.1
+ Stabilization (new)	20.2	4.1	0.1

以下のグラフは、許容される消去文字数が非常に少ない場合でも、再翻訳が、ライブ翻訳用に特別にトレーニングされたゼロフリッカーストリーミング翻訳システム(zero-flicker streaming translation systems、MILkおよびWait-k)を上回っていることを示しています。

WMT 14 English-Germanにおける再翻訳と安定化および特殊なストリーミングモデル(Wait-kおよびMILk)の比較。

再翻訳のBLEUと遅延のトレードオフ曲線は、バイアスとマスキングの様々な組み合わせによって変わりますが、10単語生成毎に2ワード未満の消去率を維持できています。

ストリーミングモデルは、トレードオフポイントごとに特別なトレーニングが必要となり、修正を行うこともできません。再翻訳は、より優れたBLEU/遅延のトレードオフを提供します。

結論
本稿で概説した解決策は、見苦しくないような翻訳を非常に迅速に表示できますが、翻訳元の文章がより長くなっても、それに応じて修正する事を可能にします。再翻訳のシンプルな構造により、最小限の労力で最高の音声および翻訳モデルを適用できます。

ただし、消去を減らす事は会話の一部にすぎません。会話中の翻訳の遅れを減らしたり、複数の人が話しているときのより良い文字起こしを可能にする新しいテクノロジーを通じて、全体的な音声翻訳体験を改善することも楽しみにしています。

謝辞
Te I, Dirk Padfield, George Foster, Wolfgang Macherey, Pallavi Baljekar, Sami Iqram, John Richardson, Kuang-Che Lee, Bryan Lin, Mengmeng Niu, Nathan Bain, Lindsey Boran, Shilip Vaishnav, Kannu Mehta, Chris Kau, Tom Small, Jeff Pitman, Macduff Hughesに感謝します。