特許フレーズ類似性データセットの発表(1/2)

１．特許フレーズ類似性データセットの発表(1/2)まとめ

・特許文書では文脈に依存する用語が口語的な意味と全く異なる事がある
・これにより特許文書を従来の方法(キーワード検索など)で検索するのは困難
・この課題に挑戦する次世代モデルのために新しいデータセットを開発した

２．Patent Phrase Similarityとは？

以下、ai.googleblog.comより「Announcing the Patent Phrase Similarity Dataset」の意訳です。元記事の投稿は2022年8月31日、Grigor Aslanyanさんによる投稿です。

アイキャッチ画像はstable diffusionで法廷で活躍するトトロ

特許文書では通常、法的かつ高度な技術用語が使用され、文脈に依存する用語は、口語的に使われる際とは全く異なる意味を持ち、さらに異なる文書間でも異なる意味を持つことがあります。

1億件を超える特許文書の資料を従来の特許検索方法(キーワード検索など)で検索するのは面倒で、使用されている言語が広範で非標準的であるため、多くの検索結果を逃すことになりかねません。

例えば、「サッカーボール(soccer ball)」は、「球形レクリエーション装置(spherical recreation device)」、「膨張式スポーツボール(inflatable sportsball)」、「球技用ボール(ball for ball game)」と表現されることがあります。更に、一部の特許文書では自分たちが有利になるように使用している用語を難読化することがあります。

より強力な自然言語処理(NLP:Natural Language Processing)と意味的類似性を理解する事で、誰もが徹底的な検索を行う事が出来るようになります。
めのアクセスを得ることができます。

特許分野の文献(および科学出版物などより一般的な技術文献)は、法律用語や専門用語を使用するため、NLPモデリングに特有の課題を提起します。

一般的に使用されている汎用的な意味的テキスト類似度(STS:Semantic Textual Similarity)ベンチマークデータセット(STS-B、SICK、MRPC、PITなど)は複数ありますが、私達の知る限り、特許や科学出版物に見られる技術概念に焦点を当てたデータセットは現在ありません。(多少関連するBioASQチャレンジには生物医学の質問応答タスクが含まれています)。

さらに、特許データの資料サイズが大きくなり続けているため(毎年、世界中で数百万件の新しい特許が発行されています)、この領域に対してより有用なNLPモデルを開発することが求められています。

本日、特許フレーズ類似性データセット(Patent Phrase Similarity dataset)と付随する論文のリリースをお知らせします。Patent Phrase Similarity データセットは、SIGIR PatentSemTech ワークショップで発表された、特許文献の技術用語に焦点を当てた、人間が評価した文脈的フレーズ間意味マッチングデータセットです。

Patent Phrase Similarityデータセットには、共同特許分類(CPC:Cooperative Patent Classification)クラスを文脈として持つ、約 50,000の評価済みフレーズペアが含まれています。他のベンチマークデータセットに通常含まれる類似度スコアに加え、同義語(synonym)、反意語(antonym)、上位概念(hypernym)、下位概念(hyponym)、全体を表す単語(holonym)、全体の中の一部を表す語(meronym)、領域関連語など、WordNetと同様の粒度の評価クラスが含まれています。

このデータセット(Creative Commons Attribution 4.0 International licenseの下で配布)は、KaggleとUSPTOにより、技術文書に対する機械学習モデルの性能にもっと注目を集めるために、米国特許フレーズマッチング競技会のベンチマークデータセットとして使用されました。この新しいデータセットで微調整を行ったモデルは、微調整を行わない一般的な事前学習済みモデルよりも大幅に性能が向上することが初期結果で示されています。

特許フレーズ類似性データセット

特許フレーズ類似度データセットは、次世代モデルの学習効果を高めるために、

(1)フレーズの曖昧性
(2)敵対的キーワードマッチング
(3)ハードネガティブキーワード(無関係だが他のモデルで類似度が高くなるキーワード)

という問題を扱う多数の例を含んで作成されました。

キーワードやフレーズには複数の意味を持つものがあるため(例えば、「マウス」というフレーズは動物を指す場合とコンピュータの入力装置を指す場合があります)、各フレーズのペアにCPCクラスを含めて曖昧性を排除しています。

また、多くの自然言語処理モデル(bag of wordsモデルなど)は、キーワードは一致するがそれ以外は無関係なフレーズ(敵対キーワードと言います。例えば「コンテナセクション」→「キッチンコンテナ」、「オフセットテーブル」→「テーブルファン」)があるデータではうまく機能しないため、このようなデータにも対応できるようにしています。

Patent Phrase Similarityデータセットは、敵対的キーワードマッチによって無関係なキーワードがマッチする例を多く含むように設計されており、NLPモデルの性能を向上させることが可能です。

Anchor	Target	Context	Rating	Score
acid absorption	absorption of acid	B08	exact	1
acid absorption	acid immersion	B08	synonym	0.75
acid absorption	chemically soaked	B08	domain related	0.25
acid absorption	acid reflux	B08	not related	0
gasoline blend	petrol blend	C10	synonym	0.75
gasoline blend	fuel blend	C10	hypernym	0.5
gasoline blend	fruit blend	C10	not related	0
faucet assembly	water tap	A22	hyponym	0.5
faucet assembly	water supply	A22	holonym	0.25
faucet assembly	school assembly	A22	not related	0

Patent Phrase Similarityデータのサンプル
アンカーとターゲットフレーズ、コンテキストCPCクラス(B08:Cleaning, C10:Petroleum, gas, fuel, lubricants, A22:Butchering, processing meat/poultry/fish), 評価クラス、および類似度スコアが含まれています。