Google翻訳の最近の進歩(1/2)

１．Google翻訳の最近の進歩(1/2)まとめ

・機械学習の進歩により自動翻訳品質が大幅に向上したがまだ人間のパフォーマンスには及ばない
・利用可能な学習用データが少ない低リソース言語の翻訳品質は特に多くの課題が残されている
・本投稿ではGoogle翻訳が取り込んだ技術、特に低リソース言語の品質改善に有効であった手法を紹介

２．Google翻訳が行った改良

以下、ai.googleblog.comより「Recent Advances in Google Translate」の意訳です。元記事の投稿は2020年6月8日、Isaac CaswellさんとBowen Liangさんによる投稿です。

Google翻訳に取り込まれた直近の技術を解説した投稿です。直近とは言っても、つい先日BLEUの代わりと成り得るBLEURTが発表されていますし、多言語対応能力を評価するXTREMEを使ったテストでM4がXLM-Rに差を付けられていた分野がある事も判明しているので、今回の投稿では言及されていない技術もどんどん取り込まれて、引き続き猛スピードで進化していくのだと思います。

その他、本投稿では触れられませんが、性別を決めつけてしまう訳を減らす試みなや翻訳がブレてしまう事を防ぐ試みなども過去に投稿されています。

アイキャッチ画像はおそらくヨルバ語の話者であろうと思われるナイジェリアの女の子でクレジットはPhoto by Joshua Oluwagbemiga on Unsplash

機械学習(ML:machine learning)の進歩により100以上の言語の自動翻訳品質が大幅に向上しました。この品質向上には2016年に発表されたGNMT(Google’s Neural Machine Translation System)ニューラル翻訳モデルも含まれます。

しかしながら、最先端のシステムであっても、非常に限定的な翻訳タスクを除いて、人間のパフォーマンスを大幅に下回っています。

研究コミュニティは、スペイン語やドイツ語などの利用出来る学習用データが多い言語であれば良いパフォーマンスを出せる手法を開発しましたが、ヨルバ語(Yoruba)やマラヤーラム語(Malayalam)などの利用可能な学習用データが少ない言語、即ち低リソース言語でのパフォーマンスには、依然として多くの課題が残されています。

多くの手法は、制御された研究環境で行われるテスト(WMT Evaluation Campaignなど)であれば、利用できるデータが少ない低リソース言語であっても重要なパフォーマンス向上をもたらしています。

ただし、これらの結果は、一般公開されている小さなデータセットでテストした結果です。インターネットから収集した非常に巨大なデータセットでも同様なパフォーマンスを発揮させる事は簡単でない場合があります。

本投稿では、Google翻訳がサポートしている言語の翻訳品質に関する最近の進歩を紹介します。

特に、利用できるデータが少ない言語についても最近の様々な進歩を取り込んで拡張することにより、品質があまり高くないインターネットから収集したデータを学習用データとして大規模に活用できるようになった事を示します。

最近の様々な進歩には、モデルアーキテクチャとトレーニングの改善、データセット内のノイズの処理の改善、M4モデルによる多言語転移学習の増強、および単一言語データの使用に及びます。

その結果、100以上の全ての言語で平均+5 BLEUスコアの品質向上を達成しました。
以下にグラフ化します。

2006年のリリース直後から現在までのGoogle翻訳モデルのBLEUスコアの変遷。
昨年開発された新手法の実装以降の改善点は、アニメーションの最後に緑で強調表示されます。

高リソース言語と低リソース言語の機械翻訳の進歩

(1)ハイブリッドモデルアーキテクチャ
4年前に、RNNベースのGNMTモデル(論文Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation)を導入しました。これにより、品質が大幅に向上し、翻訳でより多くの言語をカバーできるようになりました。

モデルパフォーマンスのさまざまな側面を分離する研究(論文The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation)作業に続いて、元のGNMTシステムを新しいモデルに置き換えました。

これは、TransformerエンコーダーとRNNデコーダーを組み合わせたモデルでLingvo(TensorFlowフレームワーク)を使って実装しています。Transformerモデルは、RNNモデルよりも一般的に機械翻訳で効果的(論文Attention Is All You Need)であることが実証されていますが、これらの品質向上のほとんどはTransformerエンコーダーによるものであり、TransformerデコーダーはRNNデコーダーよりも非常に優れているわけではない事が示唆されました。

RNNデコーダーはTransformerデコーダーより推論時にはるかに高速であるため、Transformerエンコーダーと結合する前にRNNデコーダーに様々な最適化を適用しました。結果のハイブリッドモデルは、高品質で学習時により安定動作し、応答速度が早くなっています。

(2)Webクローラー
ニューラル機械翻訳(NMT:Neural Machine Translation)モデルは、翻訳された文やドキュメントを学習用データとしてトレーニングされます。これらは通常、インターネットから収集されます。

フレーズベースの機械翻訳と比較して、NMTは学習用データの品質に対してより敏感である事がわかっています。

そのため、以前のデータ収集システムを、再現率(recall)よりも適合率(precision)を重視する新しいデータ収集システムに置き換えました。これにより、インターネットからより高品質のトレーニングデータを収集できるようになりました。更に、ウェブクローラーを辞書ベースのモデルから14の大規模な言語ペアからなるembeddingベースのモデル(論文Effective Parallel Corpus Mining using Bilingual Sentence Embeddings)に切り替えました。これにより、精度を失うことなく、収集できる文章数が平均29%増加しました。

(3)データノイズのモデリング
ノイズの多いデータは冗長であるだけでなく、それを使ってトレーニングしたモデルの品質を低下させます。

データノイズに対処するため、NMTトレーニングのノイズ除去に関する研究(論文Denoising Neural Machine Translation Training with Trusted Data and Online Data Selection)結果を参考にしました。ノイズの多いデータでトレーニングされ、クリーンなデータで微調整された予備モデルを使用して、全てのトレーニングデータにスコアを割り当てました。

次に、トレーニングをカリキュラム学習問題(curriculum learning problem)として扱いました。
すなわち、まず全てのデータを使ってモデルのトレーニングを行い、その後、より小さくよりクリーンなサブセットを使って徐々にトレーニングしていきます。