1.Googleマップでインドの言葉の翻字を改善(2/2)まとめ
・複数モデルのアンサンブルを採用する事で個々のモデルより大幅に高品質の翻字を実現
・従来のPOI名に対して今回のアンサンブル翻字手法で品質と対応範囲が大幅に改善された
・今後は他の地点の追加やペルソアラビア文字を含む他の言語および文字への拡張を予定
2.翻字のアンサンブル
以下、ai.googleblog.comより「Improving Indian Language Transliterations in Google Maps」の意訳です。元記事の投稿は2021年1月22日、Cibu JohnyさんとSaumya Dalalさんによる投稿です。
アイキャッチ画像のクレジットはPhoto by Pop & Zebra on Unsplash
翻字のアンサンブル
モデルのアンサンブルを使用して、参照元のラテン文字名称(NIT GardenやChandramani Gardenなど)から前述の言語に固有の文字および正書法に自動的に翻字します。候補となる翻字は、seq2seqモデルのペアから導出されます。1つは、一般的なテキスト翻字の有限状態モデルであり、Gboardのオンデバイスで翻字キーボードに使用されるモデルと同様の方法でトレーニングされます。
もう1つは、公開されているDakshinaデータセットで部分的にトレーニングされたニューラルLSTMモデルです。このデータセットには、前述のインド言語から1つを除いて全てを含む、南アジアの12の言語でウィキペディアから抽出されたラテン文字とその地方文字の文字データが含まれており、様々な翻字方法のトレーニングと評価が可能になります。2つのモデルはそのように異なる特性を持っているため、一緒にすると、より多様な翻字候補が生成されます。
頭字語のトリッキーな現象(前述の「NIT」や「KD」の例など)に対処するために、これらの場合に追加の翻字候補を生成する特殊な翻字モジュールを開発しました。
アンサンブルは、その地方の文字毎に、地名、固有名詞、または一般的な単語に合わせて調整された、様々な出所からの特殊なローマ字辞書を利用します。このようなローマ字辞書の事例は、Dakshinaデータセットにあります。
アンサンブルでスコアリング
アンサンブルは加重混合を行い、取りうる翻字のスコアを組み合わせます。そのパラメーターは、POI名を正確にするために、名称を専門にターゲットした小さな開発セットを使用して特別に調整されています。翻字候補となるその地方固有文字のトークン毎に、オンラインから取得した巨大なサンプルテキスト内の頻度に応じて結果に重みを付けます。
追加のスコアリングは、ISO 15919ローマ字表記標準から派生した決定論的ローマ字表記アプローチに基づいています。これは、各地方文字トークンを一意のラテン文字列にマップします。
ISOから派生させたマッピング自体は、特定の固有文字を使った単語が通常のラテン文字でどのように記述されているかを完全に対応しきれているとは限りません。しかし、この文字列により、アンサンブルは翻字されている元のラテン文字トークンと特定のキーの対応を比較して追跡できます。
全体として、これらの多くの未確定要素を含める事により、個々の手法のみを使った場合よりも大幅に高品質の翻字を提供します。
対応範囲の拡大
次の表は、従来の自動翻字POI名に対して、今回のアンサンブル翻字手法によって改善された言語毎の品質と対応範囲度合いを示しています。カバー範囲の改善は、自動翻字が利用可能になった項目の増加を測定しています。品質改善は、既存の自動翻字よりも劣っていると判断されたものに対する、改善したと判断された翻字の比率を測定します。
Language | Coverage Improvement | Quality improvement |
Hindi | 3.2x | 1.8x |
Bengali | 19x | 3.3x |
Marathi | 19x | 2.9x |
Telugu | 3.9x | 2.6x |
Tamil | 19x | 3.6x |
Gujarati | 19x | 2.5x |
Kannada | 24x | 2.3x |
Malayalam | 24x | 1.7x |
Odia | 960x | —* |
Punjabi | 24x | —* |
*印は不明/比較対象なし
結論
他の機械学習システムと同様に、結果として得られる自動翻字にはいくつかのエラーや欠陥が含まれる可能性があります。しかし、これらの広く話されている言語でカバー出来る範囲が大幅に増加した事は、インドのGoogleマップ内の情報の利用可能性が大幅に拡大した事を示しています。
今後の作業には、マップ内の他の地点の翻字や、この地域で一般的に使用されているペルソアラビア文字を含む他の言語および文字への拡張にアンサンブルデータを使用することが含まれます。
謝辞
本研究は、作者らとJacob Farner, Jonathan Herbert, Anna Katanova, Andre Lebedev, Chris Miles, Brian Roark, Anurag Sharma, Kevin Wang, Andy Wildenberg、その他の多くの皆さんとの共同研究でした。
3.Googleマップでインドの言葉の翻字を改善(2/2)関連リンク
1)ai.googleblog.com
Improving Indian Language Transliterations in Google Maps