タスク指向対話でシンプルで効果的なゼロショット転移を実現(1/3)

１．タスク指向対話でシンプルで効果的なゼロショット転移を実現(1/3)まとめ

・会話型エージェントは、航空券の予約やレストランの検索など様々なタスクで使われる
・タスクが異なるとデータ収集とモデルを再トレーニングする必要が出てくるのは問題
・タスクの意図や概念を固定化させないようにする事で効率的なモデルが出来ないか調査

２．TODとは？

以下、ai.googleblog.comより「Simple and Effective Zero-Shot Task-Oriented Dialogue」の意訳です。元記事は2022年4月13日、Jeffrey ZhaoさんとRaghav Guptaさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Artur Voznenko on Unsplash

現代の会話型エージェントは、航空券の予約やレストランの検索から、音楽再生やジョークを言う事まで、さまざまなタスクを実行するために、増え続けるサービスと統合する必要があります。

このような機能を追加することは困難です。新しいタスクのたびに、新しいデータを収集し、会話エージェントを動かすモデルを再トレーニングする必要があります。これは、ほとんどのタスク指向対話(TOD:Task-Oriented Dialogue)モデルが、1つのタスクに特化したオントロジー(ontology:概念を明示的に仕様化する事)として学習されるからです。

オントロジーは一般に、考えられるユーザーの意図(intents:例えば、ユーザーがフライトを予約したい場合、音楽をかけたい場合など)と、会話から抽出できるパラメータスロット(例えば、フライトの日付、曲の名前など)のリストとして表現されます。

硬直したオントロジーは、モデルが新しいタスクや領域に汎化するのを妨げ、制限になることがあります。例えば、あるオントロジーで学習したTODモデルは、そのオントロジー内の意図しか知らず、その知識を見たことのない意図に汎化する能力に欠けます。

これは、エージェントがすでに知っているものと重複する新しいオントロジーにも当てはまります。例えば、エージェントがすでに列車のチケットの予約方法を知っている場合でも、航空券の予約機能を追加するには、まったく新しいデータでトレーニングする必要があります。理想は、エージェントは1つのオントロジーから既存の知識を活用し、新しいオントロジーに適用することができるようにすることです。

Schema Guided Dialogue(SGD)データセットのような新しいベンチマークは、各オントロジーをスロットと意図の組み合わせに構造分解することにより、未知のタスクへの汎化能力を評価するように設計されています。SGDでは、TODモデルは複数のスロットと意図で学習され、単一のオントロジーにどれだけ適合するかではなく、未知の組み合わせにどれだけ汎化できるかで評価されます。しかし、最近の研究では、上位のモデルにはまだ改善の余地があることが示されています。

この問題に対処するため、私達は対話モデル用にゼロショット転移を行う2つの異なるsequence-to-sequenceアプローチを2つの論文「Description-Driven Task-Oriented Dialogue」と「Show, Don’t Tell: Demonstrations Outperform Descriptions for Schema-Guided Task-Oriented Dialogue」で紹介します。

どちらのモデルも、スロットと意図の説明、または単一のデモンストレーションのサンプルなど、追加的な文脈情報で条件付けしています。複数の対話状態追跡ベンチマークで得られた結果は、意図やスロット、概念の固定化を取り除くことで、これらの新しいアプローチが、より効率的なモデルで対話状態追跡タスク(dialogue state tracking task)の最新結果を導くことを示しています。本アプローチのソースコードはgithubでご覧いただけます。