Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)

１．Google 翻訳アプリのライブ音声書き起こし翻訳の訳を安定化(1/2)まとめ

・Google翻訳アプリの文字起こし機能を使うリアルタイムに翻訳済み文書に文字起こし可能
・しかし、このアプリの初期バージョンは翻訳文が後から改訂される事が多く画面がチラついた
・最近のアップデートにより翻訳が改訂される回数が大幅に削減されユーザー体験が向上

２．Google 翻訳アプリの文字起こし機能とは？

以下、ai.googleblog.comより「Stabilizing Live Speech Translation in Google Translate」の意訳です。元記事の投稿は2021年1月26日、Naveen ArivazhaganさんとColin Cherryさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Muhammad Faiz Zulkeflee on Unsplash

Google 翻訳アプリの文字起こし(transcription)機能を使うと、会議やスピーチなどのライブでおこなわれる発言を翻訳済み文書に文字起こししたり、アプリの力を借りて自分が理解できない言語を使って夕食の席で会話をすることができます。翻訳された文章を迅速に表示して、読者の関心を維持し、その瞬間に役立てることができるのです。

ただし、このアプリの初期バージョンでは、一度表示された翻訳文が後から改訂される事があり、これは使用者の気を散らせる事がありました。

翻訳元文章と翻訳先文章の間の関係は単純でなく、翻訳元文の最後の単語が翻訳先文章の最初の単語に影響を与える可能性があるためにこのような改訂がおこなわれるのです。

左：書き起こしアプリの古い版。音声認識後に表示される書き起こしされた翻訳元の文章
右：ユーザーに表示される翻訳。一度表示した翻訳が頻繁に改訂されるためユーザー体験を妨げます。

本稿では、Google翻訳アプリの文字起こし機能の最近リリースされたアップデートの背後にあるテクノロジーのいくつかについて説明します。

これにより、翻訳が改訂される回数が大幅に削減され、ユーザー体験が向上します。これを可能にする研究は2つの論文で紹介されています。1つ目「Re-Translation Strategies For Long Form, Simultaneous, Spoken Language Translation」では、ライブ翻訳に合わせた評価フレームワークを策定し、不安定性を軽減する方法を開発します。

2つ目「Re-translation versus Streaming for Simultaneous Translation」では、元のアプローチの単純さを維持しながら、新しい手法が他の手法と比較して非常にうまく機能することを示しています。結果として得られるモデルははるかに安定しており、Google翻訳アプリ内で著しく改善された読書体験を提供します。

左：書き起こしアプリの新しい版。音声認識後に表示される書き起こしされた翻訳元の文章
右：ユーザーに表示される翻訳。わずかな遅延が発生しますが、翻訳を修正する必要はほとんどありません。

ライブ翻訳の評価
改善を試みる前に、待ち時間と不安定さを最小限に抑えながら品質を最大化することを目的として、ユーザー体験の様々な側面を理解し、定量的に測定することが重要になりました。

論文「Re-Translation Strategies For Long Form, Simultaneous, Spoken Language Translation」では、ライブ翻訳の評価フレームワークを開発し、それ以降、研究とエンジニアリングの取り組みを導いてきました。これは、次の基準を使用してパフォーマンスを測定する事に繋がります。

・消去(Erasure)：翻訳が不安定な事によるユーザーに追加でかかる読み取り負荷を測定します。これは、最終的な翻訳が決定するまでに単語毎に消去および置換された単語の数です。

・遅延(Lag)：ユーザーが単語を発声してから、画面に表示される単語の翻訳が安定するまでに経過した平均時間を測定します。これを測定する事で、高速であっても頻繁に修正が行われるようなシステムを回避する事が出来ます。

・BLEUスコア：最終的な翻訳の品質を測定します。中間翻訳の品質の差は、全ての基準を組み合わせる事によって捕捉します。

これら３つの側面で品質はトレードオフの関係にあり、全てを同時に追求する事は出来ないと認識する事が重要です。Google 翻訳アプリの文字起こし機能は、リアルタイムの自動音声認識の上に機械翻訳を積み重ねることで、ライブ翻訳を可能にします。音声認識結果が更新されるたびに、新しい翻訳がリアルタイムで生成されます。そのため、毎秒複数の更新が発生する可能性があります。