PAWS:自然言語の言い換えの理解を促進する新しいデータセット(1/3)

  • 2019.10.04
  • AI
PAWS:自然言語の言い換えの理解を促進する新しいデータセット(1/3)

1.PAWS:自然言語の言い換えの理解を促進する新しいデータセット(1/3)まとめ

・語順が変わっても意味が変わらないフレーズを言い換えペア、意味が変わるペアを非言い換えペアと言う
・言い換えペアと非言い換えペアの識別は最先端のモデルでも苦戦するがそれはデータセットがないため
・言い換えペアと非言い換えペアを集中的に学習するためのデータセットPAWSが公開された

2.PAWSとは?

以下、ai.googleblog.comより「Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understanding Models」の意訳です。元記事の投稿は2019年10月2日、Yuan ZhangさんとYinfei Yangさんによる投稿です。

語順と構文構造は、文の意味に大きな影響を及ぼします。わずかな語順の変動であっても、解釈が完全に変わる可能性があります。 たとえば、次の文を見てください。

(1)Flights from New York to Florida.
ニューヨークからフロリダへのフライト。

(2)Flights to Florida from New York.
フロリダへニューヨークからのフライト

(3)Flights from Florida to New York.
フロリダからニューヨークへのフライト。

3つの文章全てが同じ単語セットを使っています。

ただし、(1)と(2)の意味は同じで、言い換えペア(paraphrase pairs)と呼ばれます。(1)と(3)の意味は全く異なり、非言い換えペア(non-paraphrase pairs)と呼ばれます。

ペアが言い換えかどうかを識別するタスクは、言い換え識別(paraphrase identification)と呼ばれます。このタスクは、質問応答などの多くの現実世界の自然言語理解(NLU:natural language understanding)アプリケーションにとって重要です。

おそらく驚くべきことに、既存のNLUデータセットのみでトレーニングされた場合、BERTのような最先端のモデルでさえ、上記の(1)と(3)のような多くの非言い換えペアの違いを正しく識別できません。これは、既存のデータセットにこのようなトレーニングペアがないため、複雑な文脈的フレーズを理解する能力を備えていても、機械学習モデルがこのパターンを学習するのが難しいためです。

この問題に対処するために、研究コミュニティが使用可能な2つの新しいデータセットをリリースします。

PAWS(Paraphrase Adversaries from Word Scrambling in English)とPAWS-X(PAWSを6つの言語、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語に拡張したデータセット)です。

両方のデータセットには、多くの重複する単語を持つ規則的な文のペアが含まれています。ペアの約半分は言い換えであり、他はそうではありません。

最先端のモデルのトレーニングデータにこの新しいペアを含めると、この種の問題の精度が50%未満から85-90%に向上します。

対照的に、非局所的な文脈情報(non-local contextual information)を理解できないモデルは、新しいトレーニングサンプルを使用しても精度は向上しません。したがって、新しいデータセットは、語順と構造に対するモデルの感度を測定するための効果的な手段を提供します。

 

PAWS PAWS-X
Language English English Chinese French German Japanese Korean Spanish
(QQP) (Wiki) (Wiki) (Wiki) (Wiki) (Wiki) (Wiki) (Wiki)
Training 11,988 79,798 49,401 49,401 49,401 49,401 49,401 49,401
Dev 677 8,000 1,984 1,992 1,932 1,980 1,965 1,962
Test 8,000 1,975 1,985 1,967 1,946 1,972 1,999

PAWS-Xのトレーニングセットは、PAWS Wikiデータセットのサブセットを英語から該当言語に機械翻訳したものです。

3.PAWS:自然言語の言い換えの理解を促進する新しいデータセット(1/3)関連リンク

1)ai.googleblog.com
Releasing PAWS and PAWS-X: Two New Datasets to Improve Natural Language Understanding Models

2)github.com
google-research-datasets/paws
google-research-datasets/paws/pawsx

3)arxiv.org
PAWS: Paraphrase Adversaries from Word Scrambling