M4:超多言語、大規模ニューラル機械翻訳(1/3)

１．M4:超多言語、大規模ニューラル機械翻訳(1/3)まとめ

・機械翻訳システムの品質は飛躍的に進歩しているが品質は学習用データの量に依存している
・学習用データが少ない言語では学習用データが多い言語ほど品質を向上できていない問題がある
・ある言語から学習した結果は他言語の翻訳に役立つはずと云う閃きを元に進めている研究がM4

２．M4とは？

以下、ai.googleblog.comより「Exploring Massively Multilingual, Massive Neural Machine Translation」の意訳です。元記事は2019年10月11日、Ankur BapnaさんとOrhan Firatさんによる投稿です。

2020年6月追記)ここで解説しているM4は2020年6月現在、Google翻訳の基盤の１つとなっています。

おそらく、翻訳とは、各言語から人間のコミュニケーションの共通基盤(存在するがまだ発見されていない普遍的な言語)まで降り、そこから別の使いやすいルートで再構築することです。 – Warren Weaver, 1949 –

過去数年にわたって、機械翻訳(MT)システムの品質は飛躍的に進歩しており、ニューラル機械翻訳(NMT)の開発により世界中の言語の壁を打ち破っています。ただし、NMTの成功は、主に大量の教師付きトレーニングデータに起因しています。しかし、データが不足している、またはデータがない言語についてはどうでしょうか？

多言語に対応した単一のNMTは潜在的な解決策となります。「ある言語から学習した信号は他の言語の翻訳の品質に役立つはず」という帰納的に確かめられた説が存在しているのです。多言語機械翻訳は、単一の翻訳モデルを使用して複数の言語を処理します。

データ不足の言語に対する多言語トレーニングの成功は、自動音声認識およびテキスト音声変換システム、および多言語翻訳に関する先行研究によって実証されています。

言語ごとのトレーニングデータの量を制御しながら、単一のニューラルネットワークで学習できる言語の数を増やすことの効果を以前に研究しました。しかし、全ての制約が削除されるとどうなるでしょうか？

データサイズ、スクリプト、複雑さ、および専門領域などの大きな違いが言語間であっても、利用可能なすべてのデータを使用して単一のモデルをトレーニングできるでしょうか？

論文、「Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges」およびフォローアップペーパーでは、100以上の言語と英語間の、250億以上の文のペアで単一のNMTモデルをトレーニングすることにより、多言語NMTに関する研究の限界を押し上げています。このモデルは500億を超えるパラメーターを使用しています。

その結果、利用可能な学習データが少ない言語と利用可能な学習データが多い言語の両方で品質が大幅に向上し、個々の領域/言語に簡単に適応できる、超多言語、大規模ニューラル機械翻訳(M4:Massively Multilingual, Massive neural Machine translation)のアプローチが実現しました。M4は、多言語対応の下流転送タスクで大きな効果を発揮します。

超多言語機械翻訳
言語ペア間のデータ量の偏りはNMTの大きな課題ですが、1つの言語のトレーニングで得られた洞察を他の言語の翻訳に適用する転移方法を研究するための理想的なシナリオでもあります。

フランス語、ドイツ語、スペイン語のようなリソースの多い言語があり、何十億もの対になった翻訳事例があります。一方、ヨルバ語、シンド語、ハワイ語などの低リソース言語の教師データは数万程度しかありません。

全ての言語ペアのデータ分布(対数スケール)とこれらの特定の言語ペアでトレーニングされた基準となるバイリンガルモデルの相対的な翻訳品質(BLEUスコア)