1.ニューラル機械翻訳におけるジェンダーバイアスを研究するためのデータセット(1/2)まとめ
・ニューラル機械翻訳は学習データ内の偏見やステレオタイプを翻訳に反映してしまう事がある
・文を個々に翻訳しており、性別情報は必ずしも個々の文内に明示的に記載されていないため
・翻訳モデルの性別の偏りを評価できるWikipedia Biographiesデータセットをリリース
2.Wikipedia Biographiesとは?
以下、ai.googleblog.comより「A Dataset for Studying Gender Bias in Translation」の意訳です。元記事の投稿は2021年6月24日、Romina Stellaさんによる投稿です。
アイキャッチ画像はパリはフランスのソルボンヌ大学のPierre & Marie CurieキャンパスでクレジットはPhoto by peter bucks on Unsplash
ニューラル機械翻訳(NMT:Neural Machine Translation)の進歩により、より自然で流動的な翻訳が可能になりました。しかし、それでも、トレーニングデータ内に含まれる社会的偏見やステレオタイプが翻訳に反映される事があります。そのため、Googleの継続的な目標は、GoogleのAI原則に沿って、機械翻訳における性別の偏見を減らす革新的な手法を開発することです。
ある研究分野では、性別の正確さを向上させるために、前後の文章や文脈を使用しています。これは簡単に実現できる事ではありません。何故なら、従来のNMT手法は文を個々に翻訳しており、性別情報は必ずしも個々の文内に明示的に記載されているわけではないからです。
例えば、スペイン語(主語が常に明示的に言及されているとは限らない言語)の以下の文章では、最初の文は主語としてMarie Curieを明示的に参照していますが、2番目の文は主語に明示的に言及していません。この2番目の文章単独では、あらゆる性別の人を指す可能性があります。ただし、英語に翻訳する場合は代名詞を選択する必要があり、その場合、正確な翻訳に必要な性別情報は最初の文の中に存在します。
Spanish Text | Translation to English |
Marie Curie nació en Varsovia. Fue la primera persona en recibir dos premios Nobel en distintas especialidades. | Marie Curie was born in Warsaw. She was the first person to receive two Nobel Prizes in different specialties. |
単一の文を超えて翻訳技術を進歩させるには、進歩を測定するための新しい指標と、良くある文脈に関するエラーを含む新しいデータセットが必要です。この課題に加えて、性別に関連する翻訳エラー(正しい代名詞の選択や性別の一致など)は、「個人」と「その個人自身が持つ性別認識」に直接言及する可能性があるため、特に敏感であるという事実があります。
文脈翻訳に関する一般的な課題(代名詞の削除、性別の一致、正しい所有格など)に対する進歩を促進するために、翻訳モデルの性別の偏りを評価するために使用できる翻訳済みWikipedia Biographiesデータセットをリリースします。このリリースの目的は、モデルの変更前後で翻訳の精度を測定できるベンチマークを提供することにより、翻訳の代名詞と性別に焦点を当てたMLシステムの長期的な改善をサポートすることです。
一般的な翻訳エラーの原因
Wikipedia内の伝記は、性別に関連する一般的な翻訳エラーが発生する可能性が高いです。Wikipedia内の伝記はうまくまとめられており、地理的に多様で、複数の文を含み、第三者を主題(したがって、代名詞がたくさん含まれています)としているためです。
これらは、記事が段落の最初の文で人を明示的に参照しているが、後の文でその人について明示的に言及していない場合によく発生します。
いくつかの例:
Translation Error | Text | Translation |
Pro-drop in Spanish → English | Marie Curie nació en Varsovia. Recibió el Premio Nobel en 1903 y en 1911. | Marie Curie was born in Warsaw. He received the Nobel Prize in 1903 and in 1911. |
Neutral possessives in Spanish → English | Marie Curie nació en Varsovia. Su carrera profesional fue desarrollada en Francia. | Marie Curie was born in Warsaw. His professional career was developed in France. |
Gender agreement in English → German | Marie Curie was born in Warsaw. The distinguished scientist received the Nobel Prize in 1903 and in 1911. | Marie Curie wurde in Varsovia geboren. Der angesehene Wissenschaftler erhielt 1903 und 1911 den Nobelpreis. |
Gender agreement in English → Spanish | Marie Curie was born in Warsaw. The distinguished scientist received the Nobel Prize in 1903 and in 1911. | Marie Curie nació en Varsovia. El distinguido científico recibió el Premio Nobel en 1903 y en 1911. |
データセットの構築
Translated Wikipedia Biographiesデータセットは、上記のような機械翻訳の一般的な性別エラーを分析するように設計されています。データセットの各実例は、人物(伝記では女性または男性として識別されます)、ロックバンド、またはスポーツチーム(性別なしと見なされます)を表します。各実例は、その中心的な主題(人、ロックバンド、またはスポーツチーム)を参照する8~15の後続文を長文テキスト翻訳する事によって表されます。記事はネイティブ英語で書かれており、スペイン語とドイツ語に専門的に翻訳されています。
スペイン語の場合、翻訳は代名詞が消える(pronoun-drop)用途に最適化されているため、同じセットを使用して、スペイン語から英語の「主語の省略(pro-drop)」英語からスペイン語の「性別の一致(gender agreement)」を分析できます。
データセットは、地域や性別を超えて同等の表現を持つ実際のグループを選択することによって構築されました。これを行うために、職業、職業、仕事、および/または活動に従ってウィキペディアから伝記を抽出しました。
職業の公平な選択を確実にするために、ウィキペディアの統計に基づいて、ステレオタイプの性別の関連(女性、男性、またはどちらでもない)の範囲を表す9つの職業を選択しました。
次に、地理ベースのバイアスを軽減するために、地理的な多様性に基づいてこれらすべての実例を分割しました。職業カテゴリごとに、地域ごとに(地理的多様性を表現する代替手段としてcensus.govの地域コードを使用)1人の候補者がいるように見えるようにしました。
実例が地域に関連付けられている場合、選択した人物が指定された地域に属する国(国籍、出生地、人生の大部分を住んでいたなど)と関連性があることを確認しました。この基準を使用することにより、データセットには、90を超える国と世界のすべての地域の個人に関するエントリが含まれます。
3.ニューラル機械翻訳におけるジェンダーバイアスを研究するためのデータセット(1/2)関連リンク
1)ai.googleblog.com
A Dataset for Studying Gender Bias in Translation
2)storage.googleapis.com
Translated Wikipedia Biographies
訳注:Marie Curieは日本だと「キュリー夫人」と表記する方が馴染がある人が多いでしょうか。夫のピエール・キュリーさんも著名な科学者ですがキュリー旦那と表記しているのは見た事がないので、キュリー夫人ってジェンダーバイアスな呼び方なのかな、とも思ったのですがキュリー夫人は「Madame Curie」の訳なんですね。ご本人が婚約を知らせる際の手紙でこれからはMadame Curieになります、と書かれていたとの事。
しかし、「娘夫婦を加えると家族で通算5度のノーベル賞を受賞」との記述をWikipediaで読んで凄すぎて笑ってしまいましたが、ノーベル賞って「通算」って修飾詞が付く賞だったのかと。