自然言語による対話を訓練するための２つの新しいデータセット

１．自然言語による対話を訓練するための２つの新しいデータセットまとめ

・デジタルアシスタントの対話能力向上に利用できるデータセットが公開
・人間同士の対話に基づいているため現実世界の対話により近いデータ
・好みに関する対話のCCPEと特定タスクに対するTaskmaster-1の２種類

２．CCPEとTaskmaster-1とは？

以下、ai.googleblog.comより「Announcing Two New Natural Language Dialog Datasets」の意訳です。元記事の投稿は2019年9月6日、Bill ByrneさんとFilip Radlinskiさんによる投稿です。

現在のデジタルアシスタントは、人間の代わりに様々な作業を実行し、多くのテーマにわたってパーソナライズされた結果を返すことが期待されています。好みの映画の閲覧候補をリスト化したり、レストランの予約、旅行プランの作成などです。

しかし、近年の大きな進歩にもかかわらず、彼らはまだ人間と同等レベルに頼まれた作業を理解する域までは達していません。その理由の1つは、人々がデジタルアシスタントに自分のニーズや好みを表現する方法を正確に反映している質の高いトレーニングデータがないことです。

これは、デジタルアシスタントの性能に合わせて、私達は言い回しを偏らせる事が一因です。

つまり、私達はデジタルアシスタントに理解して貰いたいので、デジタルアシスタントが理解できると期待出来るレベルに合わせて言い回しを調整します。そのため、現在のデジタルアシスタントと人間の会話は、人間レベルの理解をモデル化するために必要な対話の複雑さを実現するレベルには達していません。

これに対処するために、私たちはCoached Conversational Preference Elicitation(CCPE)及び、Taskmaster-1 English dialog datasetsをリリースします。どちらのコレクションも、Wizard-of-Ozプラットフォームを利用しています。対話を行う二人の人間同士の会話をベースにしているため、真に効果的なデジタルアシスタントと人間の会話のように扱う事ができます。

訳注：Wizard of Oz(WOZ)：直訳すればオズの魔法使い法は、デジタルアシスタントのふりをした人間が依頼者に対応する事で、対応事例を収集していく手法です。

両方のデータセットが用いた内製のWizard-of-Ozインターフェースは、音声ベースのデジタルアシスタントをユニークに模倣するように設計されており、ユーザーは自動化システムの使用感で音声対話を行う事ができます。

人間の「アシスタント」は、どんな人でもそうであるように、ユーザーの依頼内容を正確に理解するため、ユーザーが「完璧な」デジタルアシスタントに現実世界の自分自身の表現で依頼する方法を収集できます。

このようなシステムを改善し続けることができるように、CCPEデータセットの詳細は、the Special Interest Group on Discourse and Dialogueの2019年次会議で公開される研究論文に記載されています。

Taskmaster-1データセットは、Empirical Methods in Natural Language Processingの2019年カンファレンスで発表される研究論文で詳細に説明されています。

好みに関する対話
映画に関連するCCPEデータセットでは、ユーザーはマイクに向かって話し、その音声がデジタルアシスタント役に伝わります。アシスタント役は音声を聞いて応答を入力し、それはテキスト読み上げシステムを介してユーザーに再生されます。

これらの2人の対話には、対話を合成して複製することが困難な、２人の人間間で自然に発生する吃音や言い間違いなどが含まれます。これにより、人々の映画の好みに関する自然でありながら構造化された会話のコレクションが作成されます。

このデータセットに対する洞察の中で、人々が自分の好みを説明する方法が驚くほど豊富であることがわかりました。このデータセットは、その豊かさを大規模に特徴付けた最初のものです。

また、人間の嗜好は「デジタルアシスタントが理解しやすい表現」や「映画推奨サイトが提供する映画を選択する際のオプション」の特徴と一致するとは限らない事がわかりました。

別の言い方をすれば、「映画配信ウェブサイトまたはサービスが提供する好みにあった映画を絞り込むためのフィルター」は、「人が人に推薦を求めるときに好きな映画の種類を説明する際に使用される言葉」とおそらく一致しません。

タスク指向の対話
Taskmaster-1データセットは、コーパスのサイズと話者の多様性を高めるために、上記の2名の対話形式と書面による1名の自己記述形式を利用します。約7.7kの「自己対話型」エントリと約5.5kの2名の音声による対話が含まれます。

自己記述形式の対話では、各タスクについて概説されたシナリオに基づいてユーザー自身が完全な会話を作成し、それによりユーザーとアシスタントの両方の役割を果たします。

そのため、2名の音声による対話は言語を使った会話をより厳密に反映しているのに対し、書面による自己対話は豊富で表現で適度に複雑ですが、安価で簡単に収集できます。

このデータセットは、ピザの注文、自動修理の予約の作成、乗り物のレンタル、映画のチケットの注文、コーヒーの注文、レストランの予約の6つのタスクのいずれかに基づいています。

このデータセットは、データに十分な下地を提供するシンプルな注釈も使用しますが、注釈作業者が対話に一貫したラベルを簡単に適用できるようにします。

注釈作業者間の堅牢な合意を困難にする従来型の詳細な注釈付け戦略と比較して、各タイプの会話に紐づけたAPIの引数として注釈を扱います。つまり、特定タスクの対話の実行に必要な変数にのみ注釈付けをするのです。

例えば、ライドシェアのスケジュール設定に関する対話では、「to」と「from」に場所、車の種類(エコノミー、豪華、乗り合い型)などのラベルを付けます。映画のチケットについては、映画の名前、劇場、時間、チケットの数、場合によってはスクリーンの種類(3D型スクリーンまたは標準型スクリーンか)などにラベルを付けます。コーパスのリリースには、ラベルの完全なリストが含まれています。

これらのデータセットが、対話型システムと会話式推薦システムの両方で、実験と分析のために研究コミュニティに役立つことを願っています。

謝辞
これらのデータセットのリリースを可能にしてくれた勤勉で洞察力を持つ共同研究者と協力者の皆さんに感謝します。Karthik Krishnamoorthi, Krisztian Balog, Chinnadhurai Sankar, Arvind Neelakantan, Amit Dubey, Kyu-Young Kim, Andy Cedilnik, Scott Roy, Muqthar Mohammed, Mohd Majeed, Ashwin Kakarla,そしてHadar Shemtov。