特許フレーズ類似性データセットの発表(2/2)

１．特許フレーズ類似性データセットの発表(2/2)まとめ

・特許フレーズ類似性データセットの有用性はKaggle競技会の結果で確認できた
・既存のNLPモデルと比較して大幅な改善を達成できる事が実証された
・Kaggleの設問は人間の専門家にとっても意見がわかれる困難なものであった

２．Patent Phrase Similarityの評価

以下、ai.googleblog.comより「Announcing the Patent Phrase Similarity Dataset」の意訳です。元記事の投稿は2022年8月31日、Grigor Aslanyanさんによる投稿です。

アイキャッチ画像はstable diffusion

データセットの作成

特許フレーズ類似度データを作成するために、まず、Google Patentの資料に含まれる約1億4千万件の特許文書を処理し、重要な英語のフレーズを自動的に抽出しました。このフレーズは、名詞フレーズ(例：「ファスナー」「昇降装置」)と機能フレーズ(例：「食品加工」「インク印刷」)に代表されるものです。

次に、少なくとも100件の特許に現れるフレーズをフィルタリングして残し、これらのフィルタリングされたフレーズの中からランダムに約1,000件(アンカーフレーズと呼びます)を抽出します。

各アンカーフレーズについて、一致する特許とその特許のすべてのCPCクラスを見つけます。そして、一致するCPCクラスを最大4つまでランダムに抽出すると、これが特定のアンカーフレーズの文脈のCPCクラスとなります。

目標とするフレーズの事前生成には、

(1)部分マッチング
(2)マスク言語モデル(MLM)

の2種類の方法を用いています。

部分マッチングでは、資料全体からアンカーフレーズと部分的にマッチするフレーズをランダムに選択します。(例えば、「abatement」→「noise abatement」、「material formation」→「formation material」)。

MLMでは、特許から所定のアンカーフレーズを含む文を選択し、マスクし、マスクされた部分の候補をPatent-BERTモデルで予測します。次に、すべてのフレーズを小文字にし、句読点や特定のストップワード(例：「and」、「or」、「said」)を削除してクリーンアップし、レビューのために専門家の評価者に送信します。

各フレーズペアは、その技術分野に精通した2人の評価者によって独立して評価されます。また、各評価者は、異なる評価を持つ新しいターゲットフレーズを生成します。。具体的には、元のアンカーと部分的に一致する類似性の低いターゲット、および／または類似性の高いターゲットを生成するよう依頼されます。最後に、評価者たちは、それぞれの評価について話し合い、最終的な評価を決定します。

データセットの評価

性能を評価するために、Patent Phrase Similarityデータセットは、U.S. Patent Phrase to Phrase Matching Kaggle競技会で使用されました。この競技会は非常に人気があり、世界中から約2,000人の参加者が集まりました。上位入賞チームでは、BERTの亜種のアンサンブルモデルやプロンプトなど、様々なアプローチが成功しました。(詳しくは、kaggle内の討論ページをご覧ください）。

下の表は、この競技会の最優秀結果と、私たちの論文にあるいくつかの既知の比較対象手法を示したものです。予測スコアと真のスコアの線形相関を測定するためにピアソン相関指標が使用されました。この指標は、異なる類似性評価を区別できるので、下流モデルのターゲットにするのに役立つ指標です。

論文中の比較対象手法は、新しいデータセット上でさらなる微調整を行うことなく既製のモデルを使用するという意味で、ゼロショットとみなすことができます。(これらのモデルを使用して、アンカーフレーズとターゲットフレーズを別々に埋め込み、それらの間の余弦類似度を計算します)。

Kaggle競技会の結果は、私達の学習データを用いることで、既存のNLPモデルと比較して大幅な改善を達成できることを実証しています。また、一人の評価者のスコアと二人の評価者の合計スコアを比較することで、このタスクにおける人間のパフォーマンスを推定しました。その結果、このタスクは人間の専門家にとっても特に簡単なタスクではないことがわかりました。

Model	Training	Pearson correlation
word2vec	Zero-shot	0.44
Patent-BERT	Zero-shot	0.53
Sentence-BERT	Zero-shot	0.6
Kaggle 1st place single	Fine-tuned	0.87
Kaggle 1st place ensemble	Fine-tuned	0.88
Human		0.93

微調整を行わない一般的なモデル(ゼロショット)、Kaggleコンペティションの一環として特許フレーズ類似性データセットで微調整したモデル、および一人の人間のパフォーマンスのパフォーマンスです。

まとめと今後の課題

私達はPatent Phrase Similarity datasetを紹介しました。これは米国特許フレーズマッチング競技会のベンチマークデータセットとして使用されました。私達の学習データを用いることで、既存のNLPモデルと比較して大幅な改善を達成できることを実証しました。

特許資料からは、さらに難しい機械学習ベンチマークを生成することができ、現在最も研究されているモデルの多くに特許データが利用されています。例えば、T5の学習に使われたC4テキストデータセットには、多くの特許文書が含まれています。また、BigBirdとLongT5モデルは、BIGPATENTデータセットを介して特許を使用しています。

フルテキストデータの可用性、幅、オープンな利用条件(Google Patents Public Datasetsを参照)により、特許は研究コミュニティにとってユニークなリソースとなります。今後の課題としては、大規模マルチラベル分類、要約、情報検索、画像とテキストの類似性、引用グラフ予測、翻訳などの可能性があります。詳しくは論文をご覧ください。