より少ないデータから表形式データを推論することを学習(1/2)

１．より少ないデータから表形式データを推論することを学習(1/2)まとめ

・自然言語推論は通常の文章を対象にした研究は多いが構造化データに適用する研究は少ない
・EMNLP 2020で表形式データ解析用にカスタマイズされた初の事前トレーニングタスク発表
・新しい事前トレーニングを使うとモデルと人間のパフォーマンスギャップを最大50%減少

２．表形式データの推論

以下、ai.googleblog.comより「Learning to Reason Over Tables from Less Data」の意訳です。元記事の投稿は2021年1月29日、Julian Eisenschlosさんによる投稿です。

ToTToに続きテーブル形式データに関するお話です。

アイキャッチ画像のクレジットはPhoto by Jose Losada on Unsplash

自然言語推論(natural language inference)としても知られる、文章に含まれる意味、すなわち含意を認識するタスクは、テキストの一部(premise、前提)が別のテキスト(hypothesis、仮説)から類推される、または否定される(またはどちらでもない)かどうかを判断することで構成されます。

この問題は、機械学習(ML:Machine Learning)システムの推論スキルの重要なテストと見なされることが多く、通常の文章については詳細に研究されています。しかし、これをWebサイト、テーブル、データベースなどの構造化データに適用する研究は非常に少ないです。

しかし、表形式データの内容を正確に要約してユーザーに提示する必要がある場合は常に、テキストの含意を認識することが特に重要であり、忠実度の高い質問回答システムや仮想アシスタントにとって不可欠です。

EMNLP 2020の調査結果に掲載された「Understanding tables with intermediate pre-training」では、表形式データ解析用にカスタマイズされた初の事前トレーニングタスクを紹介し、モデルがより適切に、より速く、より少ないデータから学習できるようにします。

これは、以前紹介したTAPASモデルに基づいて構築されており、テーブル内の回答を見つけるための特別なembeddingを備えたBERT(bi-directional Transformer)モデルの拡張です。

新しい事前トレーニングの目標をTAPASに適用すると、テーブルを含む複数のデータセットに新しい最先端の性能がもたらされます。たとえば、TabFactデータセットを使った結果では、モデルと人間のパフォーマンスのギャップが最大50%減少します。

また効率を高めるために、推論に必要な入力データを選別する体系的な手法を計測し、性能(92%)を維持しながら、速度とメモリ効率を4倍に向上させました。様々なタスクと全てのサイズのモデルがGitHubリポジトリで公開されており、colabノートブックで実際に試すこともできます。

テキスト含意問題
テキスト含意のタスクは、通常のテキストよりも表形式のデータに適用する場合に困難です。例えば、ウィキペディアのテーブルと、それに関連するテーブルコンテンツから派生したいくつかの文について考えてみます。表の内容が文意に沿っているか矛盾するかを評価するには、複数の列と行を調べ、場合によっては平均化、合計、差分などの単純な数値計算を実行する必要があります。