学習用データが非常に少ない言語で機械翻訳を実現した手法(2/2)

１．学習用データが非常に少ない言語で機械翻訳を実現した手法(2/2)まとめ

・単一巨大モデルを高リソース言語の翻訳タスクと低リソース言語のMASSタスクで訓練した
・入力が同じ言語で不明瞭な文章か、まったく別の言語かはモデルからすれば大きな差はない
・この単純な手法で高品質のゼロショット翻訳が実現し、中級から高品質の翻訳が得られた

２．Google翻訳に追加されたマイナー言語

以下、ai.googleblog.comより「Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate」の意訳です。元記事は2022年5月11日、Isaac CaswellさんとAnkur Bapnaさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Mpumelelo Macu on Unsplash

モデルの紹介

1000以上の言語の単一言語テキストのデータセットが揃ったところで、ゼロリソース翻訳(該当言語を対照とした翻訳元文と翻訳済文のペアや言語固有の翻訳例がない言語に対する翻訳)のためのシンプルかつ実用的なアプローチを開発しました。

このモデルでは、単一言語テキストのみを使って学習させる人工的なシナリオに限定するのではなく、高リソース言語の数百万事例のパラレルテキストデータもすべて含めて、翻訳タスクを学習できるようにしました。同時に、MASSタスクを用いて、リソース不足言語の特徴表現を単一言語テキストから直接学習するようモデルを訓練します。このタスクを解決するために、モデルは当該言語の高度な特徴表現を開発し、文中の単語が他の単語とどのように関連しているかを複雑に理解することを余儀なくされます。

大規模多言語モデルにおける転移学習の利点を利用して、1000以上の言語について利用可能な全てのデータに対して単一の巨大翻訳モデルを学習させます。このモデルは、1138言語すべての単言語テキストと、112言語の高リソース言語のサブセットのパラレルテキストで学習します。

学習時、モデルはどの入力に対しても、どの言語で出力すべきかを示す特別なトークンを持ちます。これは、多言語翻訳の標準的な定式化と全く同じです。私達の追加した革新は、更に、単一言語のMASSタスクと翻訳タスクの両方に同じ特別なトークンを使用する事です。

したがって、translate_to_frenchというトークンは、元文章が英語で、フランス語に翻訳する必要がある(翻訳タスク)ことを示すかもしれませんし、元文章が欠落したフランス語で、流暢なフランス語に翻訳する必要がある(MASSタスク)ことを示すかもしれません。

両方のタスクに同じタグを使用することで、translate_to_french タグは、入力が同じ言語で不明瞭な文章か、まったく別の言語かに関係なく「入力と意味的に近い流暢なフランス語の出力を生成する」という意味を持ちます。モデルからすれば、両者に大きな差はありません。

意外なことに、この単純な手順で高品質のゼロショット翻訳が得られるのです。BLEUとChrFのスコアはそれぞれ10-40と20-60の範囲にあり、中級から高品質の翻訳であることを示しています。

ケチュア語やカラアリスート語のような語形変化の激しい言語でも、モデルに含まれる他のすべての言語と言語学的に類似していないにもかかわらず、意味のある翻訳が観察されました。しかし、これらの指標は、人間が翻訳した評価セットを持つ言語の小さなサブセットに対してのみ計算されたものです。残りの言語の翻訳品質を把握するために、往復翻訳(round-trip translation)に基づく評価指標を開発し、数百の言語が高い翻訳品質に達していることを確認することができました。

さらに品質を向上させるため、モデルを使って大量の合成並列データを生成し、往復翻訳(別の言語に翻訳された文章を再び別の言語に翻訳した場合の比較)に基づきデータをフィルタリングし、フィルタリングした合成データに対してバックトランスレーションと自己学習によってモデルの学習を継続します。最後に、30言語からなるより小さなサブセットでモデルを微調整し、サービス可能な大きさのモデルに蒸留します。

私たちのモデルでサポートされている638の言語について、私たちが開発した指標(RTTLangIDChrF)を用いて、高リソースの教師あり言語と低リソースのゼロリソース言語の両方で翻訳精度のスコアを算出した図

ネイティブスピーカーの貢献

これらの言語のネイティブスピーカーとの定期的なコミュニケーションは、私たちの研究にとって非常に重要でした。Googleや他の研究機関でこれらの言語を話す100人以上の人々と協力しました。例えば、ヒンディー語とサンスクリット語の混在など、自動処理では見落とされる言語外コンテンツを除去するための特殊なフィルターの開発に協力したボランティアもいます。

また、マニプリ語とベンガル語のように、まだ十分なツールが存在しない言語間の音訳を行う人もいれば、評価に関するさまざまな作業を行う人もいました。

また、言語の適切な名称や適切な文字体系など、政治的に微妙な問題についても、ネイティブスピーカーが重要な役割を担いました。

そして、「現在の翻訳品質から考えて、Google翻訳がこの言語をサポートすることはコミュニティにとって価値がありますか？」という究極の問いには、ネイティブスピーカーだけが答えることができました。

終わりに

今回の進歩は、リソース不足の言語において、より多くの言語技術をサポートするためのエキサイティングな第一歩となります。

最も重要なことは、これらのモデルによって生成された翻訳の質は、Google翻訳がサポートする高リソース言語と比較して、まだはるかに遅れていることを強調することです。

これらのモデルは、リソース不足の言語のコンテンツを理解するための最初のツールとして確かに有用ですが、間違いを犯したり、独自のバイアスを示したりします。他のML駆動型ツールと同様、出力は慎重に検討する必要があります。

今回のアップデートでGoogle翻訳に追加された新言語の全リストは以下です。

謝辞

このプロジェクトの研究、エンジニアリング、およびリーダーシップに貢献したJulia Kreutzer, Orhan Firat, Daan van Esch, Aditya Siddhant, Mengmeng Niu, Pallavi Baljekar, Xavier Garcia, Wolfgang Macherey, Theresa Breiner, Vera Axelrod, Jason Riesa, Yuan Cao, Mia Xu Chen.に謝意を表したい。Klaus Macherey, Maxim Krikun, Pidong Wang, Alexander Gutkin, Apurva Shah, Yanping Huang, Zhifeng Chen, Yonghui Wu, そして Macduff Hughesに対して感謝します。

また、さまざまな形でご協力いただいた以下のネイティブスピーカーや関連コミュニティの方々に、深く感謝いたします。

Yasser Salah Eddine Bouchareb (Algerian Arabic); Mfoniso Ukwak (Anaang); Bhaskar Borthakur, Kishor Barman, Rasika Saikia, Suraj Bharech (Assamese); Ruben Hilare Quispe (Aymara); Devina Suyanto (Balinese); Allahserix Auguste Tapo, Bakary Diarrassouba, Maimouna Siby (Bambara); Mohammad Jahangir (Baluchi); Subhajit Naskar (Bengali); Animesh Pathak, Ankur Bapna, Anup Mohan, Chaitanya Joshi, Chandan Dubey, Kapil Kumar, Manish Katiyar, Mayank Srivastava, Neeharika, Saumya Pathak, Tanya Sinha, Vikas Singh (Bhojpuri); Bowen Liang, Ellie Chio, Eric Dong, Frank Tang, Jeff Pitman, John Wong, Kenneth Chang, Manish Goregaokar, Mingfei Lau, Ryan Li, Yiwen Luo (Cantonese); Monang Setyawan (Caribbean Javanese); Craig Cornelius (Cherokee); Anton Prokopyev (Chuvash); Rajat Dogra, Sid Dogra (Dogri); Mohamed Kamagate (Dyula); Chris Assigbe, Dan Ameme, Emeafa Doe, Irene Nyavor, Thierry Gnanih, Yvonne Dumor (Ewe); Abdoulaye Barry, Adama Diallo, Fauzia van der Leeuw, Ibrahima Barry (Fulfulde); Isabel Papadimitriou (Greek); Alex Rudnick (Guarani); Mohammad Khdeir (Gulf Arabic); Paul Remollata (Hiligaynon); Ankur Bapna (Hindi); Mfoniso Ukwak (Ibibio); Nze Lawson (Igbo); D.J. Abuy, Miami Cabansay (Ilocano); Archana Koul, Shashwat Razdan, Sujeet Akula (Kashmiri); Jatin Kulkarni, Salil Rajadhyaksha, Sanjeet Hegde Desai, Sharayu Shenoy, Shashank Shanbhag, Shashi Shenoy (Konkani); Ryan Michael, Terrence Taylor (Krio); Bokan Jaff, Medya Ghazizadeh, Roshna Omer Abdulrahman, Saman Vaisipour, Sarchia Khursheed (Kurdish (Sorani));Suphian Tweel (Libyan Arabic); Doudou Kisabaka (Lingala); Colleen Mallahan, John Quinn (Luganda); Cynthia Mboli (Luyia); Abhishek Kumar, Neeraj Mishra, Priyaranjan Jha, Saket Kumar, Snehal Bhilare (Maithili); Lisa Wang (Mandarin Chinese); Cibu Johny (Malayalam); Viresh Ratnakar (Marathi); Abhi Sanoujam, Gautam Thockchom, Pritam Pebam, Sam Chaomai, Shangkar Mayanglambam, Thangjam Hindustani Devi (Meiteilon (Manipuri)); Hala Ajil (Mesopotamian Arabic); Hamdanil Rasyid (Minangkabau); Elizabeth John, Remi Ralte, S Lallienkawl Gangte,Vaiphei Thatsing, Vanlalzami Vanlalzami (Mizo); George Ouais (MSA); Ahmed Kachkach, Hanaa El Azizi (Morrocan Arabic); Ujjwal Rajbhandari (Newari); Ebuka Ufere, Gabriel Fynecontry, Onome Ofoman, Titi Akinsanmi (Nigerian Pidgin); Marwa Khost Jarkas (North Levantine Arabic); Abduselam Shaltu, Ace Patterson, Adel Kassem, Mo Ali, Yonas Hambissa (Oromo); Helvia Taina, Marisol Necochea (Quechua); AbdelKarim Mardini (Saidi Arabic); Ishank Saxena, Manasa Harish, Manish Godara, Mayank Agrawal, Nitin Kashyap, Ranjani Padmanabhan, Ruchi Lohani, Shilpa Jindal, Shreevatsa Rajagopalan, Vaibhav Agarwal, Vinod Krishnan (Sanskrit); Nabil Shahid (Saraiki); Ayanda Mnyakeni (Sesotho, Sepedi); Landis Baker (Seychellois Creole); Taps Matangira (Shona); Ashraf Elsharif (Sudanese Arabic); Sakhile Dlamini (Swati); Hakim Sidahmed (Tamazight); Melvin Johnson (Tamil); Sneha Kudugunta (Telugu); Alexander Tekle, Bserat Ghebremicael, Nami Russom, Naud Ghebre (Tigrinya); Abigail Annkah, Diana Akron, Maame Ofori, Monica Opoku-Geren, Seth Duodu-baah, Yvonne Dumor (Twi); Ousmane Loum (Wolof); 及び Daniel Virtheim (Yiddish).