Google翻訳の最近の進歩(2/2)

１．Google翻訳の最近の進歩(2/2)まとめ

・低リソース言語の翻訳品質向上には逆翻訳やM4モデリングなどが有効であった
・直近で行われた改良はフレーズベースの翻訳からNMTベースへ移行した4年前の改善度合いに匹敵
・機械翻訳の幻覚に対する堅牢性も向上しており、文字の羅列を変に翻訳する事は減った

２．Google翻訳が行った改良

以下、ai.googleblog.comより「Recent Advances in Google Translate」の意訳です。元記事の投稿は2020年6月8日、Isaac CaswellさんとBowen Liangさんによる投稿です。

GoogleはM4、つまり「単一の巨大なモデルを使用して全ての言語を扱う」アプローチをしているので、高リソース言語で学習した「言語の本質」を低リソース言語で生かす事が出来ており、本投稿にあるように低リソース言語で優秀な成績を収めています。しかし、現時点では特定言語間専用にバリバリにチューニングを行った他社のモデルに流暢さで一歩劣っているようです。

まぁ、これはGoogle Assistantをマルチリンガル対応にしようとしているくらいなので、特定言語間用に細かいチューニングする事より全世界の言語に対応させる事を優先しているからだと思うのですが、M4が最終的に日本語にしかないと言われる概念、例えば「もったいない」をどのように訳すようになっていくのか興味あります。

アイキャッチ画像のクレジットはPhoto by Joshua Oluwagbemiga on Unsplash

特に低リソース言語の翻訳品質向上につながった進歩

(1)逆翻訳(Back-Translation)
最先端の機械翻訳システムで広く採用されている逆翻訳は、並列トレーニングデータ(翻訳元言語の各文がその翻訳先言語の文章と対になっているデータ)が不足している低リソース言語で特に役立ちます。

逆翻訳は、並列トレーニングデータを合成データで補強します。合成データは、元言語の文章は人間によって書かれていますが、それらの翻訳文はニューラル翻訳モデルによって生成されています。

Google翻訳に逆翻訳を組み込むことにより、インターネット上の低リソース言語用で書かれたテキストを、対訳がなくとも、モデルをトレーニングするために利用できます。

これは、低リソースの翻訳モデルのパフォーマンスが低下しがちな「モデル出力の流暢さ」を高めるのに特に役立ちます。

(2)M4モデリング
リソースの少ない言語で特に役立つテクニックはM4(Massively Multilingual, Massive Neural Machine Translation)です。このモデルは単一の巨大なモデルを使用して全ての言語と英語の翻訳を行います。

これにより、大規模な転移学習が可能になります。

例として、イディッシュ語(Yiddish)のようなリソースの少ない言語を、関連が深い他の様々なゲルマン系言語(ドイツ語、オランダ語、デンマーク語など)や、他の約100言語と共同でトレーニングできるという利点があります。

既知の言語的繋がり(linguistic connection)を共有していない言語も含まれていますが、モデルに何らかの有用な信号を提供する可能性があります。

翻訳品質の判断
機械翻訳システムの翻訳品質を自動で評価する一般的な指標はBLEUスコアです。これはシステムが出力した翻訳文と人間が生成した翻訳文の類似性に基づいてスコアがつけられます。

上記で説明した最新の進歩により、以前のGNMTモデルと比較して平均BLEUが+5ポイント増加しました。リソースが最も少ない50言語では平均で+7 BLEUが増加しています。この改善は、フレーズベースの翻訳からNMTベースへ移行した4年前に観察された改善度合いに匹敵します。

BLEUスコアは良く知られたほぼ正確な測定値ですが、既に品質が高いシステムの品質を測定する際には様々な落とし穴がある事が知られています。例えば、いくつかの研究は、翻訳元言語(論文：The Effect of Translationese in Machine Translation Test Sets)または翻訳先言語(論文：APE at Scale and its Implications on MT Evaluation Biases)の翻訳表現の影響を受けてBLEUスコアが不正確になる事を示しています。

これは、翻訳された文章が翻訳元言語の属性(語順など)を含んでしまうために、不自然な文章になってしまう現象です。このため、全ての新しいモデルに対して人間による評価も行い、BLEUスコアの向上を確かめました。

一般的な品質の向上に加えて、新しいモデルでは、「機械翻訳の幻覚(machine translation hallucination)」に対する堅牢性が向上しています。

機械翻訳の幻覚とは、意味のない入力が与えられると、モデルが奇妙な翻訳文を生成する現象です。これは、少量のデータでトレーニングされたモデルに共通の問題であり、多くの低リソース言語に影響します。

例えば、テルグ語(Telugu)の文字列「షషషషషషషషషషషషషషష」を指定すると、古いモデルは無意味な出力「Shenzhen Shenzhen Shaw International Airport（SSH）」を生成していました。これは音的に近づけようとしていたように見えます。一方、新しいモデルは、これを「Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh」として正しく文字変換する事を学習しています。

結論
これらは機械翻訳にとって印象的な進歩ですが、特に低リソース言語の場合、自動翻訳の品質は完璧とはほど遠いことを覚えておく必要があります。

これらのモデルは、以前として以下のような一般的な機械翻訳エラーの餌食となります。

・専門的な分野(法律文書や技術文書など)における翻訳品質の低下
・異なった方言を統合する事が苦手
・過度に文字通りに翻訳を生成してしまう事
・会話体、および話し言葉を扱う際に品質が低下

それにもかかわらず、このアップデートにより、108のサポート対象言語のリソースが最も少ない場合でも、比較的一貫した自動翻訳を提供できる事を誇りに思います。学術界や産業界の機械翻訳研究者の活発なコミュニティからこれを可能にしてくれた研究に感謝しています。

謝辞
この取り組みは、Tao Yu, Ali Dabirmoghaddam, Klaus Macherey, Pidong Wang, Ye Tian, Jeff Klingner, Jumpei Takeuchi, Yuichiro Sawai, Hideto Kazawa, Apu Shah, Manisha Jain, Keith Stevens, Fangxiaoyu Feng, Chao Tian, John Richardson, Rajat Tibrewal, Orhan Firat, Mia Chen, Ankur Bapna, Naveen Arivazhagan, Dmitry Lepikhin, Wei Wang, Wolfgang Macherey, Katrin Tomanek, Qin Gao, Mengmeng Niu, and Macduff Hughesからの貢献に基づいています。