効率的な質問回答システムにおける課題とワークショップの開催

入門/解説

1.効率的な質問回答システムにおける課題とワークショップの開催まとめ

・従来の質問回答システムは「知識」をドキュメント、またはナレッジグラフから取得して回答していた
・しかし直近の大規模システムはナレッジグラフや文章を参照せず直接回答をする事ができた
・「知識」はどのような形式で保管するのが効率的なのだろうか?NeurIPS 2020でゴングが鳴る

2.質問回答システムにおける課題とは?

以下、ai.googleblog.comより「Presenting a Challenge and Workshop in Efficient Open-Domain Question Answering」の意訳です。元記事の投稿は2020年6月23日、Eunsol ChoiさんとTom Kwiatkowskiさんによる投稿です。

目は口ほどに物を言うアイキャッチ画像のクレジットはPhoto by Sharon McCutcheon on Unsplash

自然言語処理(NLP:natural language processing)の主な目的の1つは、ユーザーの質問に答えられるシステムを構築することです。

これを行うには、コンピューターが質問を理解し、世界に関する知識を言語で表現し、回答への道筋を推論できる必要があります。

従来、回答はドキュメントの集まり、またはナレッジグラフ(訳注:Google検索時に稀に右上に出て来る情報をまとめたパネル)から取得されてきました。

例えば、「独立宣言はいつ正式に署名されたのですか?」という質問に答えるために、システムはまずウィキペディアから最も関連性の高い記事を見つけ、次に「1776年8月2日」という回答を含む文を見つけます。

ただし、T5のような最近のアプローチでは、大量のWebから取得したテキストでトレーニングされたニューラルモデルはナレッジグラフからドキュメントや事実を取得せずに、質問に直接回答できることを示されています。

これにより、質問回答システムで使用するための知識をどのように保存するべきかかについて、大きな議論が生まれました。

人間が読めるテキストや構造化フォーマットで保存するべきでしょうか?それともニューラルネットワークの学習済みパラメータとして保存するべきなのでしょうか?

本日、プリンストン大学およびワシントン大学と協力して開催する「EfficientQA competition and workshop」(NeurIPS 2020)を発表できることを誇りに思います。

目標は、オープンドメイン、つまりジャンルを限定しない質問に回答するために必要なすべての知識を含むエンドツーエンドの質問応答システムを開発することです。

知識の保存方法に制限はありません。文章、データベース、ニューラルネットワークのパラメーター、またはその他の形式にすることができます。

ただし、応募作品は、知識(コード、構造化された言語資料、モデルパラメータなど)にアクセスするために使用されるバイト数に基づいて評価されます。

また、可能な限り最良の質問回答パフォーマンスを達成することを目標とする、システムサイズに制約のないコンペも開催されます。

小さくても堅牢なシステムを構築するには、参加者は知識の表現と推論の新しい方法を模索する必要があります。


ニューラルネットワークと言語資料が拡大および縮小するにつれて、必要メモリがどのように変化するかを示す図。成功するシステムは、ナレッジグラフなどの他のリソースを知識の保存方法として使用する可能性があります。

コンテストの概要
コンテストでは、Natural Questionsデータセットのオープンドメイン版を使用して評価されます。

また、質問への回答には多くの正しい言い方があり、そのすべてが用意されている回答文のセットでカバーされているわけではないという事実を説明するために、すべての上位の参加者に対しては人間による評価も提供します。

例えば、「ジープはどのタイプの車と見なされますか?」という質問に対しては 「オフロード車(off-road vehicles)」と「街乗りSUV(crossover SUVs)」の両方が有効な答えです。

コンテストは4つの別々の部門に分かれています。

・500 Mb未満で最高のパフォーマンスのシステム
・6 Gb未満の最高のパフォーマンスのシステム
・少なくとも25%の精度を達成する最小のシステム
・サイズに制約のない最高のパフォーマンスのシステム

これらの各部門の受賞者は、NeurIPS 2020の仮装空間の会場で作品を発表するよう招待されます。
また、NeurIPS 2020の仮想カンファレンスでは、優勝した各システムと人間の雑学の専門家(2017年のNeurIPSヒューマンコンピューターコンテストで行われたクイズ「Jeopardy!」と「Who’s Wanting to a Millionaire」のチャンピオン)がリアルタイムのコンテストで競い合います。

参加方法
参加するには、コンテストサイト、「Efficient Open-Domain Question Answering」にアクセスしてください。ダウンロードできるデータと評価コード、参加方法の日付と手順、およびアップデート用のサインアップフォームがあります。学術界の協力者とともに、開始に役立ついくつかのサンプルシステムを提供しています。

自然言語処理の分野では、小さな質問回答システムを実装する際の選択肢をより詳細に調査および比較することでメリットが得られると考えています。非常に小さなシステムの開発を奨励することにより、このコンテストがスマートフォンなどのデバイス上で実行可能な質問応答システムへの道を開くことを願っています。

謝辞
この課題とワークショップの作成は、大規模なチームの努力の結果でした。
GoogleからAdam Roberts, Colin Raffel, Chris Alberti, Jordan Boyd-Graber, Jennimaria Palomaki, Kenton Lee, Kelvin Guu, 及び Michael Collins。
ワシントン大学からSewon Min, Hannaneh Hajishirzi
プリンストン大学からDanqi Chen

3.効率的な質問回答システムにおける課題とワークショップの開催関連リンク

1)ai.googleblog.com
Presenting a Challenge and Workshop in Efficient Open-Domain Question Answering

2)efficientqa.github.io
Efficient Open-Domain Question Answering

 

コメント

タイトルとURLをコピーしました