タスク指向対話でシンプルで効果的なゼロショット転移を実現(2/3)

１．タスク指向対話でシンプルで効果的なゼロショット転移を実現(2/3)まとめ

・D3STは会話状態を予測を行う際に、スロットと意図の記述を活用するDSTモデル
・SDTは具体的な会話内で可能なスロットと値を示す、単一の注釈付き対話例を活用
・SDTは定義を言語化する必要がなくの短い対話例の作成で済むので開発者は楽

２．D3STとSDT

以下、ai.googleblog.comより「Simple and Effective Zero-Shot Task-Oriented Dialogue」の意訳です。元記事は2022年4月13日、Jeffrey ZhaoさんとRaghav Guptaさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Artur Voznenko on Unsplash

記述駆動型のタスク指向対話

最初の論文では、D3ST(Description-Driven Dialogue State Tracking)を紹介します。このDSTモデルは、「思考体系の状態(belief state)」に関する予測を行う際に、スロットと意図の記述を活用するものです。D3STはT5 sequence-to-sequence言語モデルの上に構築されており、これは以前の研究でDST問題に対して効果的に事前学習されることが示されています。

D3STは入力シーケンスにスロットと意図の記述を使います。これによりT5モデルがこの文脈情報と会話の両方に注目することを可能にします。T5モデルの汎化能力は、これらの記述の定式化によってもたらされます。各スロットに名前を付ける代わりに、各スロットにランダムな索引番号を割り当てます。

カテゴリ値スロット(すなわち、あらかじめ定義された値の中から選択されるスロット)については、可能な値も任意に列挙し、リスト化します。意図についても同様で、これらの記述を合わせて、入力文字列に含まれるスキーマ特徴表現が形成されます。

これを会話文と連結し、T5モデルに入力します。ターゲット出力は現在の思考体系(belief state)とユーザの意図(user intent)であり、これも割り当てられた索引番号で識別されます。
以下に例を示します。

D3STの入出力フォーマットの一例。赤のテキストはスロット記述、青のテキストは意図記述です。黄色のテキストは会話内容です。

これは、特定のスロットではなく、スロットの索引番号を使用して会話の文脈を予測するようにモデルを強制します。異なる例で各スロットに割り当てる索引番号をランダムにすることで、モデルが特定のスキーマ情報を学習するのを防ぎます。

索引番号0のスロットは、ある例では「列車の出発」スロットで、別の例では「列車の到着」スロットである可能性があります。このように、モデルは索引番号0で与えられたスロットの説明を使って正しい値を見つけるように促され、特定のスキーマに過度に適合することを抑制されるのです。

この設定により、十分な数の異なるタスクや領域を見たモデルは、現在の思考体系の追跡と意図予測の動作を一般化することを学習します。

Show Don’t Tell

次の論文「Show Don’t Tell: Demonstrations Outperform Descriptions for Schema-Guided Task-Oriented Dialogue」では、スロットの記述に依存するのではなく、具体的な会話内で可能なスロットと値を示す、単一の注釈付き対話例を使います。

この意味で、私達は記述によってモデルに定義や意図を「語る(tell)」のではなく、その実例を「見せる(show)」のであり、それゆえ「Show Don’t Tell(SDT)」と名付けました。SDTもT5をベースに構築されており、D3ST以上にゼロショット性能を向上させています。

SDTの入力と出力のフォーマットの例
赤のテキストにはデモが含まれ、青のテキストにはその検証済の思考体系(ground truth belief state)が含まれます。モデルが予測する実際の会話は黄色です。D3STプロンプトはスロットの説明に完全に依存していますが、SDTプロンプトは簡潔な対話例と予想される対話状態の注釈を含んでおり、より直接的な教師となる事ができます。

SDTが単一のデモを使う理論的根拠は単純です。スロットや意図の記述では完全には捉えられない曖昧さがあり、それを示すために具体的な事例が必要となるという事です。

さらに、開発者の立場からすると、定義を説明するための短い対話例を作成することは、各スロットや意図の背後にある意味を完全にとらえた説明を書くよりも簡単な場合が多いのです。