FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(1/2)

データセット

1.FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(1/2)まとめ

・ブラジルとポルトガルではポルトガル語が話されているように多くの言語には、地域によって様々なバリエーションがある
・しかし、現在の機械翻訳システムでは、翻訳する言語の種類をユーザーが指定することはできず不均衡が発生している
・FRMTはブラジルとヨーロッパのポルトガル語、中国本土と台湾の北京語における地域別言語品種への対応力を測定するデータセット

2.FMRTとは?

以下、ai.googleblog.comより「FRMT: A benchmark for few-shot region-aware machine translation」の意訳です。元記事は2023年2月17日、Parker RileyさんとJan Bothaさんによる投稿です。

chatGPTの学習に使われた「人間による評価を使った強化学習(RLHF:Reinforcement Learning from Human Feedback)」が話題になる事が多い昨今ですが、非常に微妙で判別しにくい差異を学習させる際は、まだ教師あり学習が主軸になるのだなぁ、と改めて感じます。

アイキャッチ画像はstable diffusionのカスタムモデルによる生成で本当は国旗を入れ込みたかったのですが、どうしても上手くいかずにポルトガルとブラジルのサッカーユニフォームをイメージした画像。右側はまだギリギリ要素をとどめていますが、左側までいくともはや誰をイメージした画像なのかほぼわかりませんが、ユニフォームの綺麗さを優先させました。

ブラジルとヨーロッパのポルトガル語(Portuguese)、中国本土と台湾の北京語(Mandarin)のように、世界中で話されている多くの言語には、地域によって様々なバリエーション(方言(dialects)と呼ばれることもあります)があります。

ブラジルとヨーロッパのポルトガル語、中国本土と台湾の北京語など、多くの地方言語が存在し、話者間で相互理解が可能な場合が多いが、それでも重要な違いがあります。

例えば、ブラジルのポルトガル語で「バス(bus)」は「ônibus」、ヨーロッパのポルトガル語は「autocarro」です。しかし、現在の機械翻訳(MT:Machine Translation)システムでは、翻訳する言語の種類をユーザーが指定することはできません。

そのため、システムが「間違った」表現を出力したり、不自然な形で表現が混在したりすると、混乱が生じる可能性があります。また、地域を意識しないMTシステムは、オンラインで利用可能なデータが多い表現を優先する傾向があり、利用可能なデータが不足している言語品種の話者には不均衡な影響を与えます。

Transactions of the Association for Computational Linguistics誌に掲載された論文「FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation」では、ブラジルとヨーロッパのポルトガル語、中国本土と台湾の北京語のケーススタディを通じて、MTシステムの地域別言語品種への対応能力を測定するための評価データセットを紹介します。

このFRMTデータと評価コードの公開により、世界中で話されている多くの地域言語に対応したMTシステムを構築するための新たな方法を研究コミュニティに提供することを期待しています。

課題 少数事例を用いて汎化

最新のMTシステムの多くは、英語の入力文とそれに対応するポルトガル語の訳文など、数百万から数十億の訳文例で学習されます。しかし、利用可能なトレーニングデータの大半は、その翻訳がどのような地域品種であるかを特定していません。

このようなデータの不足を踏まえ、私達はFRMTを少数事例翻訳(few-shot translation)のベンチマークと位置づけ、各言語品種のラベル付き翻訳例が100件以下である場合に、MTモデルが地域品種に翻訳する能力を測定します。

MTモデルは、ラベル付けされた少数の例(「模範例(exemplars)」と呼びます)に示される言語パターンを利用して、ラベル付けされていない学習事例から同様のパターンを特定する必要があります。こうすることで、モデルは汎化し、模範例で明示的に示されていない出来事についても正しい翻訳を行うことができます。


「バスが到着した」という英文を、ブラジル語(BR)(左)とヨーロッパ(PT)(右)の2種類のポルトガル語に翻訳する、少数事例翻訳のMTシステムの例

MTの少数事例アプローチは、既存のシステムに地域品種を追加するサポートを加えることが非常に容易であるため、魅力的です。

私たちの研究は2つの言語の地域品種に特化していますが、うまく機能する方法は、他の言語や地域品種にも容易に適用できるものと思われます。原則的に、これらの方法は、形式やスタイルなど、他の言語の区別にも適用できるはずです。

データ収集

FRMTデータセットは、Wiki40bデータセットから取得した英語版Wikipediaの記事の一部を、有償のプロの翻訳者がポルトガル語と北京語の異なる地域品種に翻訳したものです。

地域を意識した翻訳の課題を明らかにするため、3つのコンテンツバケット(1)語彙(Lexical), (2)実体(Entity), (3)ランダム(Random)を用いてデータセットを設計しました。

(1)語彙(Lexical)
語彙バケットでは、言葉の選び方の地域差に着目しています。
例えば、「バス」という単語を含む文章をブラジルとヨーロッパのポルトガル語に翻訳する場合、それぞれ「ônibus」と「autocarro」のように区別されるなど、語彙の選択における地域差に焦点を当てたバケットです。ブログや教育サイトを参考に、地域ごとに特徴的な訳語を持つ20~30語を手作業で収集し、各地域の有志のネイティブスピーカーからフィードバックを得てフィルタリング・吟味を行いました。得られた英単語リストをもとに、関連する英語版Wikipediaの記事(例:bus)から、それぞれ最大100文のテキストを抽出しました。同じプロセスを北京語についても独自に実施しました。

(2)実体(Entity)
実体バケットも同様に、ある言語の2つの地域のいずれかに強く関連する人物、場所、その他の実体に関係するものを入力します。例えば、「リスボンでは、よくバスを利用した」という文章を考えてみましょう。これをブラジルのポルトガル語に正しく翻訳するためには、2つの潜在的な落とし穴を克服しなければなりません。

2-1)リスボンとポルトガルが地理的に強く結びついているため、モデルが「ônibus」ではなく「autocarro」を選択するなど、ヨーロッパのポルトガル語の翻訳を生成するような影響を与える可能性があります。

2-2)「リスボン」を「ブラジリア」に置き換える事で、モデルはブラジルのポルトガル語向けに出力を修正するかもしれません。しかし、これは、流暢な翻訳であっても、意味的には不正確なものになるでしょう。

(3)ランダム(Random)
ランダムバケットは、モデルが他の多様な現象を正しく処理することを確認するために使用され、Wikipediaの「特集」と「良品」のコレクションからランダムに抽出した100件の記事のテキストで構成されています。

3.FRMT:複数地域で使われる共通言語の微妙な差異を扱う能力を測る機械翻訳用ベンチマーク(1/2)関連リンク

1)ai.googleblog.com
FRMT: A benchmark for few-shot region-aware machine translation

2)arxiv.org
FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation

3)github.com
google-research/frmt/

4)research.google
Few-shot Regional Machine Translation

タイトルとURLをコピーしました