Google翻訳でジェンダー別の翻訳を提供する(2/2)

  • 2018.12.13
  • AI
Google翻訳でジェンダー別の翻訳を提供する(2/2)

1.Google翻訳でジェンダー別の翻訳を提供する(1/2)まとめ

・ジェンダー別翻訳が必要と判断されると3パターンの翻訳が作られる
・女性前提の翻訳文と男性前提の翻訳文の品質が高いとそれが表示される
・品質が低いと判断されると従来の翻訳文が表示される

2.ジェンダー別の翻訳を提供するために必要だった作業

以下、ai.googleblog.comより「Providing Gender-Specific Translations in Google Translate」の意訳です。元記事は2018年12月10日、Melvin Johnsonさんによる投稿です。昨日の「Google翻訳の性別の偏りを軽減する試み」はGoogle本体のブログ(www.blog.google)に投稿された記事ですが、今回の記事はGoogle AI Blog(ai.googleblog.com)に投稿されたもので、技術的な背景についても詳しく書かれています。前半はこちら

性別別に翻訳を生成
次に、私達のNMT(Neural Machine Translation)システムを拡張して、要望に応じて女性前提の訳文、もしくは男性前提の訳文を生成できるようにしました。性別が指定されないときは、デフォルトの翻訳を作成するようにモデルを訓練してえいます。これを実現するために、

・訓練用データを、女性、男性、性別未指定、の3種類に識別し、分別しました。

・文の先頭に記号を追加し、性別を指定しました。多言語NMTシステムの構築方法と同様です。

<2MALE> O bir doktor → He is a doctor
<2FEMALE> O bir doktor → She is a doctor

・女性、男性、性別未指定、の3種類のデータで、私たちの拡張機械翻訳モデルを訓練しました。私達は、3種のパターンそれぞれでモデルが同等に動作するように、元データの様々な混合比を実験しました。

ユーザーが入力した文章がジェンダー中立であると判断された場合は、ジェンダー指定記号が翻訳対象の文頭に追加されます。これらの要求に対して、我々の最終的な機械翻訳モデルは、99%の精度でジェンダー別の翻訳を確実に生成することができます。さらに、システムはジェンダー指定記号が存在しない際でも翻訳の品質を維持できます。

正確性のチェック
最後に、ジェンダー別の翻訳を表示するかどうかを決定するステップがあります。男性前提の翻訳文を生成するために使われた訓練データは、女性前提の翻訳文を生成するために使われた訓練データとは異なるので、2つの翻訳文の間に、性別とは無関係な差異が発生してしまう事があります。

ジェンダー別の翻訳が低品質であると判断された場合、単一のデフォルト翻訳のみが表示されます。性別に特化した翻訳の品質を判断するために、私達は、

・女性前提の翻訳が要求された際に女性前提の翻訳文になっているか?

・男性前提の翻訳が要求された際に男性前提の翻訳文になっているか?

・女性版と男性版の翻訳がジェンダーに関連した変更を除いて全く同じかどうか?翻訳文にわずかでも差異があると、フィルタリングされて非表示となります。

上図:男性版と女性版の翻訳は性別に関してのみ異なりますつまり、「he」と「his」と「she」と「her」です。 したがって、この事例ではジェンダー別の翻訳を表示します。
下図:男性版と女性版の翻訳は、性別の観点で「he」と「she」と正しく区別されています。しかし、「really(本当に)」と「actually(実際に)」の違いは性別に関係していません。従って、ジェンダー別の翻訳は表示されず、デフォルトの翻訳が表示されます。

3つのステップをまとめると、入力された文章はまず分類器を通過し、分類器は性別別の翻訳が必要か否かを検出します。分類器が「はい」と答えると、拡張NMTモデルに3つのリクエストが送信されます。女性前提の翻訳リクエスト、男性前提の翻訳リクエスト、ジェンダー中立な翻訳リクエストです。

最後のステップでは、3つのリクエストに対する回答全てを確認し、ジェンダー別の翻訳を表示するのか、単一のデフォルトの翻訳を表示するのかを決定します。このステップは、性別別翻訳の品質を高く保つために依然としてかなり保守的です。それゆえ、性別別翻訳が出力される割合は約60%に過ぎません。今後も対応できる範囲を増やし、より複雑な文章がサポートできるように開発を続ける予定です。

これは、機械翻訳システムにおけるジェンダー偏見を是正する取り組みの第一歩であり、機械学習における公平性を追求するGoogleのコミットメントを改めて表明したものです。将来的には、ジェンダー固有の翻訳をより多くの言語に拡張し、ノンバイナリージェンダー(自身の性を男性、女性のどちらかに限定しない人)の翻訳についても対応する予定です。

謝辞
この成果は、以下の沢山の人々(もちろん、以下の人々に限定しているわけではありません)の多大な努力のおかげで成功しました。(ラストネームのアルファベット順):Lindsey Boran, HyunJeong Choe, Héctor Fernández Alcalde, Orhan Firat, Qin Gao, Rick Genter, Macduff Hughes, Tolga Kayadelen, James Kuczmarski, Tatiana Lando, Liu Liu, Michael Mandl, Nihal Meriç Atilla, Mengmeng Niu, Adnan Ozturel, Emily Pitler, Kathy Ray, John Richardson, Larissa Rinaldi, Alex Rudnick, Apu Shah, Jason Smith, Antonio Stella, Romina Stella, Jana Strnadova, Katrin Tomanek, Barak Turovsky, Dan Schwarz, Shilp Vaishnav, Clayton Watts, Kellie Webster, Colin Young, Pendar Yousefi, Candice Zhang and Min Zhao.

(Google翻訳でジェンダー別の翻訳を提供する(1/2)からの続きです)

3.Google翻訳でジェンダー別の翻訳を提供する(2/2)関連リンク

1)ai.googleblog.com
Providing Gender-Specific Translations in Google Translate