Google翻訳でジェンダー別の翻訳を提供する(1/2)

  • 2018.12.12
  • AI
Google翻訳でジェンダー別の翻訳を提供する(1/2)

1.Google翻訳でジェンダー別の翻訳を提供する(1/2)まとめ

・単語だけならばジェンダー中立の検出は容易だが明示的な単語がなくてもジェンダー中立になる文が存在
・これを解決するためにジェンダー別の翻訳を提供するためには3つのステップが必要になった
・まずはその文章がジェンダー中立か否かを判断するための畳み込みネットワークを構築した

2.ジェンダー別の翻訳を提供するために必要だった作業

以下、ai.googleblog.comより「Providing Gender-Specific Translations in Google Translate」の意訳です。元記事は2018年12月10日、Melvin Johnsonさんによる投稿です。昨日の「Google翻訳の性別の偏りを軽減する試み」はGoogle本体のブログ(www.blog.google)に投稿された記事ですが、今回の記事はGoogle AI Blog(ai.googleblog.com)に投稿されたもので、技術的な背景についても詳しく書かれています。後半はこちら

Google翻訳でジェンダー別の翻訳を提供する

ここ数年、Google翻訳は、エンドツーエンドのニューラルネットワークベースのシステムに切り替えることで、翻訳品質を大幅に改善しました。同時に、私たちはニューラルネットワークを使用した翻訳はジェンダーバイアスなどの社会的偏見を反映してしまう事を認識しました。具体的に言えば、性別を表す方法は言語によって大きく異なり、文章内で性別が特定できないような曖昧さがあると、システムは社会的非対称性を反映して性別を選択してしまう傾向があり、結果的に偏った翻訳がになります。例えば、従来のGoogle翻訳はトルコ語の「彼/彼女はドクターです」を英語で「彼はドクターです」と翻訳してしまい、同じくトルコ語の「彼/彼女はナースです」を英語で「彼女はナースです」と翻訳してしまいました。

先日、私達は翻訳のジェンダーバイアスを減らすための第一歩を踏み出したと発表しました。英語から4つの異なる言語(フランス語、イタリア語、ポルトガル語、スペイン語)に翻訳するとき、及びトルコ語から英語にフレーズ(2単語以上から構成される句)やセンテンス(一文)を翻訳するときに、女性版と男性版の両方の翻訳を提供します。


Google翻訳ウェブサイトの性別別の翻訳例

ワード(単語)翻訳時にジェンダー別の翻訳をサポートすることは、ジェンダー属性を持つ辞書の登録数を増やす事が基盤になります。より長いフレーズやセンテンス翻訳の際にジェンダー別の翻訳をサポートすることは更に困難であり、従来の翻訳手法の枠組みに大きな変更を加える必要がありました。私達はこの挑戦に対して、手始めにトルコ語から英語への翻訳に焦点を当てました。

私たちは、トルコ語でジェンダー中立な文章が入力された際に、英語で男性前提の翻訳文と女性前提の翻訳文の両方を提供するという問題を解決するために、以下の3ステップアプローチを開発しました。


(1)ジェンダー中立な文章の検出(2)性別別に翻訳を生成(3)正確性のチェック

ジェンダー中立な文章の検出
人々を指す示す多くのトルコ語の文章はジェンダーに中立ですが、全てではありません。トルコ語は形態的に複雑です。人を意味する単語はジェンダー中立な代名詞(O、Onaなど)で明示的に指定することもできますし、暗黙的に性別を含めることもできます。どの文章が性別を限定していないのか適格に検出することは難しい問題です。

たとえば、「Biliyor mu?」というセンテンスにはジェンダー中立な代名詞が存在しませんが、英語では「彼女は知っていますか?」とも「彼は知っていますか?」とも訳す事ができます。

この複雑さは、ジェンダーに中立な代名詞のリストを作って、それを使用してジェンダーに中立なトルコ語の文章を検出することはできず、何らかの機械学習ベースのシステムが必要であることを意味します。トルコ語の文章の約10%はジェンダーが曖昧であり、女性と男性の両方の文章に翻訳出来ると推定されます。

これらのジェンダーに中立な文章を検出するために、私達は、最新のテキスト分類アルゴリズム(Cloud Natural Language APIで使用されているものと同じです)を使用しました。このアルゴリズムは翻訳が完了する前に追加作業が必要になるため、応答速度とのバランスを慎重に調整する必要がありました。

私たちは、人間がジェンダーに中立的か否かラベル付けした何千もの文章例を用いて私たちの翻訳システムを訓練しました。最終的に完成した私達の分類システムは、ジェンダー別の翻訳を必要とする文章を正確に検出できる畳み込みニューラルネットワークです。

(Google翻訳でジェンダー別の翻訳を提供する(2/2)に続きます)

3.Google翻訳でジェンダー別の翻訳を提供する(1/2)関連リンク

1)ai.googleblog.com
Providing Gender-Specific Translations in Google Translate