Natural Questions:質問回答システムのための新しいコーパス

１．Natural Questions:質問回答システムのための新しいコーパスまとめ

・自然言語で表現された質問と回答のセットであるNatural Questionsが公開
・長文を読むことによって回答を見つける事ができるかに焦点を当てたデータセット
・答えが既にわかっている状態で短い答えを見つける作業よりも深い言語理解を必要

２．Natural Questionsとは？

以下、ai.googleblog.comより「Natural Questions: a New Corpus and Challenge for Question Answering Research」の意訳です。元記事は2019年1月23日、Tom KwiatkowskiさんとMichael Collinsさんによる投稿です。2020年2月追記：「質問応答システム」と訳していたのですが「質問回答システム」の方が適切なのだろうな、と思いタイトルを「質問回答システム」に変更しています。なお、BERT登場前は「そつなく受け答えが出来るか？」が観点だったので「応答」で良かったと思うのですが、2020年代はもう「具体的な回答が出来ているか？」が焦点になりつつあります。関連情報としては「TyDi QA：多言語対応した質問回答ベンチマーク」や「Meena：どんな会話にも対応できるチャットボット」などがあります。

オープンドメインの質問回答システム(QA)は、自然言語理解(NLU)におけるベンチマークタスクであり、人々が情報を探す方法をエミュレートし、文書全体を読んで理解することによって質問に対する答えを見つけることを目的としています。

自然言語で表現された質問、例えば「なぜ空は青いのですか？」の例で考えると、たとえ答えがやや複雑で長くても、QAシステムはWebページ(例えばWikipediaなど)を読んで正しい答えを返すことができるはずです。

しかしながら、現在のところ、公的に利用可能な自然な質問(すなわち、情報を求める人によって尋ねられる質問)およびQAモデルを訓練し評価するために使用することができる回答のデータセットは存在しません。これは、質問に答える高品質のデータセットを構築するためには、多くの実際の質問と正しい答えを見つけるための多大な労力を必要とするためです。

私達は、QAシステムの研究の進歩を促進するために、オープンドメインの質問回答システムをトレーニングおよび評価するための新しい大規模コーパス(言語資料)であり、始めて人々が質問に対する答えを見つけるプロセスをエンドツーエンドで再現した[1]Natural Questions(NQ)を発表する事に興奮しています。

NQは巨大で、QAシステムのトレーニングに使用できるよう、Wikipediaからの人間の注釈付きの回答とともに、30万の自然な質問で構成されています。私達は更に5人の異なった注釈者が提供した異なる答えを16,000の質問セットに含めました。これは、学習済QAシステムの性能を評価するのに役立ちます。

NQの質問に答えるには、雑学の質問に答える(これは2011年にIBMのWatsonがクイズ番組で勝利した事例のように既にコンピュータにとって簡単に解決できるものです)よりはるかに深い理解が必要です。私たちはまた、コンピューターの自然言語理解を深めるために、このデータに基づいたコンペもを発表しています。

NQデータの概要
Natural Questionsは、自然な質問を使用し、短い段落から回答を抽出するのではなく、ページ全体を読むことによって回答を見つけることに焦点を当てた最初のデータセットです。

NQを作成する際、まずユーザーがGoogleの検索エンジンに打ち込んだ実際の検索語を匿名化して集約してデータを集めました。次に、注釈者達に、自分自身がこの検索をしたと仮定して、全Wikipediaのページを通読して答えを見つけるように依頼します。

注釈者は、答えを割り出すために必要な「全ての情報を網羅する長い答え」と、「質問に簡潔に答える短い答え」の両方を探します。NQコーパスの注釈の品質は、90％の精度で測定されています。

私たちの論文「Natural Questions: a Benchmark for Question Answering Research」はTACL(Transactions of the Association for Computational Linguistics)で承認されており、そこにはデータ収集プロセスの詳細な説明があります。データセットからさらにいくつかの例を見るには、NQのWebサイトをチェックしてください。

NQの課題
NQは、QAシステムが、質問に対する答えを含んでいてもいなくてもWikipediaの記事全体を読んで理解できるようにすることを目的としています。システムは最初に、質問が答えられるほど十分に明確に定義されているかどうかを決定する必要があります。何故なら、多くの質問は誤った仮定をするか、または簡潔に答えるにはあいまいすぎるのです。

それからQAシステムは答えを割り出すのに必要な情報を全てを含んでいるページがWikipediaにあるかどうかを決定する必要があります。私達は、長い答え(答えを割り出すために必要な全ての情報)を特定する作業は、長い答えが既にわかっている状態で短い答えを見つける作業よりも深い言語理解を必要とすると考えています。

NQのリリースとそれに伴う課題が、より効果的で堅牢なQAシステムの開発に拍車をかけるのに役立つことを私たちは望んでいます。

我々は、NLUコミュニティがチャレンジに参加し、現在の最先端のアプローチと人間の間にある大きなギャップを埋める事を奨励します。チャレンジWebサイトにアクセスしてリーダーボードを表示し、詳細を確認してください。

※[1]ある読者が、本物の問い合わせと完全な文書を含んだBaidu社のデータセットであるDuReaderに私たちに教えてくれたところです。これを私たちの論文に追加します。その中で、NQについてはこれまでの研究との関連で説明します。