TyDi QA：多言語対応した質問回答ベンチマーク(1/2)

１．TyDi QA：多言語対応した質問回答ベンチマーク(1/2)まとめ

・日本語を含む11種類の多様な言語を網羅する質問回答用のデータセットであるTyDi QAが公開
・TyDi QAは共通点の少ない言語を集めたため多様な言語に多様な対応可能なモデルを訓練できそう
・TyDi QAには言語とデータの課題を表す11言語からの200,000を超える質問と回答のペアが含まれる

２．TyDi QAとは？

以下、ai.googleblog.comより「TyDi QA: A Multilingual Question Answering Benchmark」の意訳です。元記事の投稿は2020年2月6日、Jonathan Clarkさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Carl Heyerdahl on Unsplash

質問に回答するテクノロジーは、「イカ墨は食べても安全ですか？」などの日常的な疑問に直面したときに、人々を助けます。ユーザーは音声アシスタントに尋ねるか、検索を入力して回答を受け取ることができます。

昨年、私達は英語のNatural Questionsデータセットを研究コミュニティにリリースし、現実世界のユーザーニーズに挑戦ができるよになりました。しかし、何千もの異なる言語があり、それらの多くは非常に異なるアプローチを使用して意味を構築しています。

例えば、英語は物体の数により単語が変化します。1つの場合の単数形(book)と1つ以上の場合の複数形(books)などですが、アラビア語には3つ目の形式もあります。1つの場合(“كتاب”, kitab)、2つの場合(“كتب”, kutub)、2つ以上の場合(“كتابان”, kitaban)。

更に、日本語などの一部の言語では、単語間にスペースを使用しません。様々な言語の「意味」の表現方法を理解可能な機械学習システムの作成は困難であり、そのようなシステムのトレーニングには、それらが適用される多様な言語の例文が必要です。

多言語の質問回答に関する研究を促進するために、本日、11種類の多様な言語を網羅する質問回答用のコーパス(corpus:言語資料)であるTyDi QAをリリースします。

私たちのコーパスは、論文「TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages」で説明されています。このコーパスは「異なる言語は構造的に異なる方法で意味を表現する」という概念上の多様性からヒントを得ています。このコーパスでは、互いに共通点の少ない言語を集めたため、このデータセットを使って良好に機能するモデルは、世界中の多数の言語に対応可能になると予想されます。

多様な言語
TyDi QAには、様々な言語とデータの課題を表す11言語からの200,000を超える質問と回答のペアが含まれています。

これらの言語の多くは、アラビア語、ベンガル語、韓国語、ロシア語、テルグ語、タイ語などの非ラテン文字を使用しています。他には、アラビア語、フィンランド語、インドネシア語、キスワヒリ語、ロシア語など、複雑な方法で単語を形成する言語もあります。

日本語は4つの文字種、「24時間でのサーキット周回数(それぞれを4色で表示)」を使用しますが、韓国語の文字は非常に構成的です。

これらの言語は、ウェブ上で利用可能なデータが多い(英語やアラビア語)から、ごくわずか(ベンガル語やキスワヒリ語)まで多様です。これらの課題に対処できるシステムは、非常に多くの言語で成功する事が期待されます。

現実的なデータの作成
研究コミュニティで使用されている初期のQAデータセットの多くは、最初に人々に段落を示し、次に段落を読んで答えられる内容に基づいて質問を書くように依頼する事で作成されました。

ただし、各質問の作成の最中に回答が表示されているため、このアプローチでは、回答と同じ単語が含まれている質問文が多く生成されました。その結果、このようなデータでトレーニングされた機械学習アルゴリズムは、ユーザーのニーズを満たすために必要なより微妙な答えを無視して、単語のマッチングを優先してしまいます。