M4:超多言語、大規模ニューラル機械翻訳(3/3)

１．M4:超多言語、大規模ニューラル機械翻訳(3/3)まとめ

・低リソース言語の数を増やすと高リソース言語の翻訳の品質が低下する現象が観察される
・これを敷設ために良い学習アルゴリズムやモデルパラメータ数を増やす試みを行った
・最終的に500億個のパラメーターを正常にトレーニングする事に成功し翻訳品質がさらに向上

２．M4の実用化

以下、ai.googleblog.comより「Exploring Massively Multilingual, Massive Neural Machine Translation」の意訳です。元記事は2019年10月11日、Ankur BapnaさんとOrhan Firatさんによる投稿です。

大規模ニューラルネットワークの構築
低リソース言語の数を増やすと、高リソース言語の翻訳の品質が低下し始めます。この退行は、「タスク間の競合」と「転送の単方向性(つまり、高リソースから低リソースへの転送)」が生じるマルチタスク設定で認識されます。

このネガティブな転移を軽減するために、より良い学習アルゴリズムとキャパシティ制御アルゴリズムに取り組んでいます。しかし、ニューラルネットワークの特徴表現能力を拡張するには、モデルパラメーターの数を増やして高リソース言語の翻訳の品質を向上させ、ニューラルネットワークを大きくする必要もあります。

レイヤーを追加したり、隠れ特徴表現をよりワイドにするなど、ニューラルネットワークの容量を拡張するために、多数の設計から選択を行うことができます。翻訳のためのよりディープなネットワークのトレーニングに関する研究を継続し、GPipeを使用して、60億を超えるパラメーターを持つ128層トランスフォーマーをトレーニングしました。モデルの容量を増やすと、すべての言語で平均5BLEUポイントもパフォーマンスが大幅に向上しました。

また、ネットワークの深さと幅のトレードオフ、トレーニングの容易さ、840億のパラメーターを使用して1500層以上にトランスフォーマーをスケーリングするための設計選択など、非常にディープなネットワークのその他の特性も調査しました。

よりディープなネットワークにする事は、モデルの容量を増やすための1つのアプローチですが、マルチタスク設定の性質を活用できるアーキテクチャを探索する事は、非常に説得力のある補完的方法です。

無改良のフィードフォワードレイヤーをまばらにゲート化(Sparse Gating:計算を節約する手法)した混合エキスパート(Mixture of Experts:複数のニューラルネットワークを階層型に組み合わせる手法)に置き換えることで、Transformerアーキテクチャを変更しました。これにより、モデルのキャパシティを大幅に拡大し、500億個のパラメーターを正常にトレーニングする事が出来、翻訳品質がさらに向上しました。

単一の大規模多言語モデルと103の個別のバイリンガルベースラインとの比較の図
処理能力(パラメーター数)を増やすと、単一の大規模多言語モデルの翻訳品質が向上します。

M4の実用化
個々の言語、領域、または転送タスクごとに非常に高い計算コストを支払って大きなモデルをトレーニングすることは非効率的です。代わりに、容量調整可能レイヤーを使用して、元のモデルを変更せずに新しいモデルを特定の言語または領域に適合させて、これらのモデルをより実用的にする方法を論文「Simple, Scalable Adaptation for Neural Machine Translation」でを提示しています。

次のステップ
現在使われている7,000の言語の少なくとも半分は、今世紀の終わりまでには存在しなくなると言われています。多言語の機械翻訳が助けになるでしょうか？

M4のアプローチは、次の1,000言語に対応するための足がかりになると考えています。M4のような多言語モデルを元にすれば、利用できる並列データ(元の文章と翻訳した文章のペア)が利用できない場合でも、新しい言語、領域、および実務的作業に簡単に拡張する事ができます。

確かに今後の道のりは険しく、普遍的な機械翻訳システム実現に必要と思われる多くの有望な解決策は、様々な研究分野に跨った幅広い研究が必要になるように見えます。

しかし、これにより、多言語NMTは、マルチタスク学習、メタラーニング、ディープネットの学習のダイナミクスなど、機械学習の実践者や理論家にとって尤もらしい試験用プラットフォームともなります。まだまだ先は長いです。

謝辞
この取り組みは、Naveen Arivazhagan, Dmitry Lepikhin, Melvin Johnson, Maxim Krikun, Mia Chen, Yuan Cao, Yanping Huang, Sneha Kudugunta, Isaac Caswell, Aditya Siddhant, Wei Wang, Roee Aharoni, Sébastien Jean, George Foster, Colin Cherry, Wolfgang Macherey, Zhifeng Chen 及び Yonghui Wuからの貢献に基づいています。

また、Google Translate, Google Brain, Lingvo development teams, Jakob Uszkoreit, Noam Shazeer, Hyouk Joong Lee, Dehao Chen, Youlong Cheng, David Grangier, Colin Raffel, Katherine Lee, Thang Luong, Geoffrey Hinton, Manisha Jain, Pendar Yousefi 及び Macduff Hughesからのサポートに感謝します。