TimeDialとDisfl-QA：時の概念と流暢でない口語表現に対応するためのNLPデータセット(2/2)

１．TimeDialとDisfl-QA：時の概念と流暢でない口語表現に対応するためのNLPデータセット(2/2)まとめ

・非流暢さは本質的に音声現象であり、音声認識システムでテキスト出力時に最も影響がある
・しかし、非流暢さの概念を含んでまとめられたデータセットがないので研究できなかった
・Disfl-QAは非流暢さ対応をターゲットとしたデータセットで全質問に非流暢部分が含まれる

２．Disfl-QAとは？

以下、ai.googleblog.comより「Two New Datasets for Conversational NLP: TimeDial and Disfl-QA」の意訳です。元記事は2021年8月4日、Aditya GuptaさんとShyam Upadhyayさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Vitolda Klein on Unsplash

Disfl-QA

非流暢さ(disfluency)は本質的に音声現象であるため、音声認識システムを使ってテキストを出力する際に最も影響があります。このような非流暢さをテキストで理解することは、人間の発話を理解する会話型エージェントを構築するための鍵です。

残念ながら、NLPと言語コミュニティでの研究は、そのような非流暢さの概念を含んでまとめられたデータセットの欠如によって妨げられており、Switchboardのように利用可能なデータセットは、規模と複雑さが制限されています。その結果、非流暢さの概念が存在するケースをNLPモデルでストレステストすることは困難です。

Disfluency	Example
Interjection	“When is, uh, Easter this year?”
Repetition	“When is Eas … Easter this year?”
Correction	“When is Lent, I mean Easter, this year?”
Restart	“How much, no wait, when is Easter this year?”

さまざまな種類の流暢さ
reparandum(訂正または無視される事を意図した単語、赤色)
interregnum(追加の繋ぎ言葉、灰色)
repair(訂正、青色)

Disfl-QAは、情報探索時の非流暢さ対応を確かめる最初のデータセットです。ウィキペディアを使った質問回答テストであるSQuAD形式を採用しています。

Disfl-QAは、非流暢さ対応をターゲットとしたデータセットであり、すべての質問(12,000)に流暢でない部分が含まれているため、以前のデータセットよりもはるかに大きな非流暢さ対応を確かめるテストセットとなります。Disfl-QAの非流暢さの90%以上は訂正(corrections)または再発言(restarts)であり、非流暢さのテストセットとして非常に困難です。

さらに、以前の流暢さのデータセットと比較して、それはより多様な意味的に紛らわしい言い回し、すなわち、より単純な音声上の流暢さの欠如とは対照的な「意味的に惑わす言い回し」を含んでいます。

Wikipediaの一節：The Normans (Norman: Nourmands; French: Normands; Latin: Normanni) were the people who in the 10th and 11th centuries gave their name to Normandy, a region in France. They were descended from Norse (“Norman” comes from “Norseman”) raiders and pirates from Denmark, Iceland and Norway who, under their leader Rollo, …

(ノルマン人(ノルマン語：Nourmands、フランス語：Normands、ラテン語：Normanni)は、10世紀から11世紀にかけて、フランスの地方であるノルマンディーに住んでおり、その名前の由来となった人々です。彼らはノース人(「ノルマン」は「Norseman」から来ています)の襲撃者やデンマーク、アイスランド、ノルウェーから来た海賊の子孫であり、リーダーのRolloの下・・・)

Q₁:	In what country is Normandy located?	France ○
DQ₁:	In what country is Norse found no wait Normandy not Norse?	Denmark ×
Q₂:	When were the Normans in Normandy?	10th and 11th centuries ○
DQ₂:	From which countries no tell me when were the Normans in Normandy?	Denmark, Iceland and Norway ×

SQuADデータセット形式の一節と質問(Qi)とそれらの非流暢なバージョンの質問(DQi)
DQiに「Norse」や「from which countries」など惑わす言い回しが含まれています。右端はT5モデルが出力した予測です。

ここで、最初の質問(Q1)は、ノルマンディーの場所についての回答を求めています。非流暢なバージョン(DQ1)では、質問がNorseが言及されてから訂正されています。この流暢でない訂正の存在は、予測を行う際に質問文から得た表面的な手がかりだけに依存する傾向を持つQAモデルを混乱させます。

Disfl-QAには、言いなおしと修復の間の共参照(coreference、同じ実体を参照する表現)などの新しい現象も含まれます。

SQuAD	Disfl-QA
Who does BSkyB have an operating license from?	Who removed [BSkyB’s] operating license, no scratch that, who do [they] have [their] operating license from?

実験によると、既存の最先端の言語モデルベースの質問回答システムのパフォーマンスは、ゼロショット設定でDisfl-QAおよび経験側的(Heuristics)な非流暢さ(論文内で示されています)でテストすると大幅に低下します。

Dataset	F1
SQuAD	89.59
Heuristics	65.27 (-24.32)
Disfl-QA	61.64 (-27.95)

データ水増し手法がパフォーマンスの低下を部分的に回復することと、微調整のために人間が注釈を付けたトレーニングデータを使用することの有効性も示しています。NLPモデルが非流暢さに対して堅牢であるためには、研究者は大規模な非流暢さのデータセットを必要とすると私たちは主張しています。

結論

流暢さや時間的推論など、人間の発話に固有の言語現象を理解することは、近い将来、より自然な人間と機械のコミュニケーションを可能にするための重要な要素です。TimeDialとDisfl-QAを使用して、これらのデータセットをNLPモデルの試験環境して提供し、さまざまなタスクにわたって遍在する現象に対する堅牢性を評価することで、主要な研究ギャップを埋めることを目指しています。

より広範なNLPコミュニティが、これらの課題のために特別に構築されたタスク固有の人間の注釈付きトレーニングデータセットを必要とせずに、これらの現象を効果的に処理するための一般化された小数ショットまたはゼロショットアプローチを考案することが私たちの希望です。