GWASkb:ゲノムワイド関連解析情報を論文から自動抽出(3/6)

１．GWASkb:ゲノムワイド関連解析情報を論文から自動抽出(3/6)まとめ

・GWASkbは十分に高い精度を維持しながら、既存の文書からかなりの数の関連性を抽出
・人間がキュレーションしたデータベースとは採用基準が異なるが他に掲載されていない関連性も抽出できた
・検証の結果GWASkbは、手動でキュレーションされた関連性の最大80％をカバーしている

２．GWASkbと他のGWAS関連データベースとの比較

以下、www.nature.comより「A machine-compiled database of genome-wide association studies」の意訳です。元記事は2019年7月26日、Volodymyr Kuleshovさん、Jialin Dingさん、Christopher Voさん、Braden Hancockさん、Alexander Ratnerさん、Yang Liさん、Christopher Réさん、Serafim BatzoglouさんとMichael Snyderさんによる投稿です。

機械学習ベースの情報抽出システムの開発における最も重大なボトルネックの1つは、手作業でラベル付けされた大量のトレーニングデータを用意する必要がある事です。データプログラミングは、このボトルネックを回避するために、精度は低くとも高レベルな弱い教師を使用してモデルをトレーニングする新しいパラダイムです。

このアプローチでは、ユーザーはラベル付け関数を記述します。これは、データポイントにラベルを付ける関数で様々な形式を取る事ができます。経験則的な知識、正規表現パターン、遠隔教師(distant supervision:外部の知識ベースを使用してデータポイントにラベルを付ける事)、などの様々なヒューリスティックルールを組み込む事が出来るのです。

これらのラベル付け関数が出力するラベルはランダムなラベルよりも優れていると想定されますが、それ以外では、精度はマチマチで、場合によっては矛盾したり、相関する可能性があります。

そこで、生成モデルを使用して、ラベルのないデータからラベル付け関数の精度と相関を学習させます。このモデルによる予測は、分類時に参照したり、次に出てくる識別モデル用にラベルを生成したりするために使用できます。詳細については、補足ノート1を参照してください。

今回の研究では、データプログラミングを使用して、少数(4 – 12)の手作りのラベル付け関数について生成的Naive Bayes分類器をトレーニングします(補足ノート6)。次に、これらの確率的ラベルを予測に直接適用します詳細については、付録を参照してください。

再現性
結果を完全に再現できるようにするために、GWASkbの生成と本論文の図と表のほとんどを再作成するために使用できるJupyterノートブックをリリースしています。GWASkbの生成に使用されるノートブックとソースコードは、GitHubのgwaskbリポジトリから無料で入手できます。

さらに、ユーザーがGWASkbで抽出された関連付けを閲覧できるようにするインタラクティブなWebサイト(補足ノート10を参照)を構築しています。ユーザーは、研究、表現型、または多様体のRSIDでデータを検索できます。データセット全体は、CSV形式でGitHubからダウンロードすることも、補足ノート11で提供されるリンクを使用してダウンロードすることもできます。

機械による自動読み取りはGWASキュレーションの自動化に役立ちます
589件のオープンアクセス可能なGWAS論文からGWASkbを自動編集しました。これらの論文は、自動テキストマイニングを実行する権利を制限する著作権の影響を受けない論文です。

これらの論文は、執筆時点で人気のある人手により管理されているデータベースであるNHGRI-EBI GWAS Catalogに記録された研究の約25%を含んでいます。

これらの論文をPubMed Central(PMC)リポジトリからXML形式で取得し、XMLソースコードを情報抽出システムへ入力として渡しました。ユーザーが法的権限を持っている場合、システムは非オープンアクセスの論文にも適用できることに記しておきます。

ゲノムワイド関連解析は通常、発見コホート(discovery cohort)で特定され、その後、別の複製コホート(replication cohort)に複製されます。一部のキュレーションプロジェクト(GWAS Catalogなど)には、正常に複製された関連付けのみが含まれますが、その他(GWAS Centralなど)にはそうでない関連性もほとんど全て含める傾向があります。 GWASkbは後者のアプローチに従います。これにより、柔軟性が向上し、研究者はニーズに最適な信頼区間でデータを絞り込むことができます。

システムの精度とリコールを評価するため、研究の少なくとも1つの実験(1つのコホートまたは1つの統計モデルなど)でp < 10⁻⁵で有意であると判断された関連付けを自動的に抽出してデータセットを作成しました。この基準により、十分に高い精度を維持しながら、既存のデータベースに存在するかなりの数の関連を抽出できました(表1)。

データベース名称	収集対象とした論文の数	掲載された関連性	このデータベースにしかない関連性
GWAS Catalog	589	8384	>2026
GWAS Central	516	5914	>364
GWASkb (ours)	589	6231	>2777

このデータベースにしかない関連性は1つのデータベースにのみ存在し、他のデータベースには含まれません。人間がキュレーションしたデータベース(GWAS CatalogとGWAS Central)は、その範囲が大きく異なります。機械により自動編集されたリポジトリ(GWASkb)は、既知の結果の大部分を自動的に回復し、同等の数の一意な関連付けを検出します

この基準が、GWAS Catalogなどのデータベースで使用される基準とは異なっていることに注意が必要です。GWAS Catalogは、通常、発見コホートと複製コホートの組み合わせによる重要な関連付けが含まれます。(発見コホートデータのみが利用可能で複製コホートが存在しない場合は除きます)

私達の採用基準はメタデータと全ての関連付けを受け入れるため、研究者がニーズに応じてデータを調整できる柔軟性があります。欠点は、複製されていないもの、以前の研究に由来するもの、または非GWAS実験から生じたものなど、信頼性の低い関連性も含まれることです。

信頼性の低いデータセットであっても、特定のパスウェイに関連する多様体が多く存在するかをテストする際など、一部のアプリケーションにとっては依然として有用です。ただし、このままでは、他のアプリケーションが必要とする正確性や重要度を満たさない多様体を手動でフィルタリングする必要に繋がり、これは面倒な場合があります。

このプロセスを支援するために、特定の多様体に関連付けられたコホートの識別に役立つメタデータをリリースしています(補足ノート9を参照)。このメタデータは、後でターゲットコホートを自動的に識別する分類器をトレーニングするために使用する事ができます。

GWASkbは、手動でキュレーションされた関連性の最大80％をカバーします
GWAS CentralおよびGWAS Catalogには、それぞれ589のオープンアクセス研究にリンクされた3,008および4,023のアクセス可能な関連性が含まれています。

これらの関連性は、PubMed Centralで利用できるオープンアクセスXMLコンテンツにRSIDが含まれているPubMed ID、多様体RSID、表現型、およびp値の組として定義されます。

GWAS Catalogの場合、オントロジー(EFO:Experimental Factor Ontology)ではなく、報告された特性を分析に使用します。

人間がキュレーションしたデータベースに対するリコールを測定するには、GWASkbで報告された各ペア(PubMed ID、RSID、表現型、p値)が人間がキュレーションしたデータベースにも存在するかどうかを判断する必要があります。

このために、GWASkbで報告される表現型が、人間のキュレーターによって報告される表現型と同等であるかどうかを決定する必要があります。これを判断するために、GWAS CentralまたはGWAS Catalogのいずれかで報告された表現型と同じPubMed IDとRSIDを持つGWASkb表現型の対応表を手動で作成しました。

データベースは特性を記述するために様々なレベルの精度を使用しているため(例えば、「1日の喫煙回数」vs「1日に消費するタバコの箱数」)、報告された表現型が厳密か近似かを指定します。後者の場合、それはまだ有用ですが、いくつかの詳細が欠けています。表2に、様々なレベルの精度毎にGWASkbに含まれる関係の例を示します。

研究名	関係性	シンプルな表現型(GWASkb)	正確な表現型(GWASKb)	p値(GWASkb)	表現型(GWAS Cat)	p値(GWAS Cat)
Genome-wide pharmacogenomic study of metabolic side effects to antipsychotic drugs	rs17661538	Antipsychotic drugs/metabolic side effects	Clozapine—Triglycerides	1.00E−06	Clozapine-induced change in triglycerides	1.00E−06
Genome-wide meta-analysis identifies seven loci associated with platelet aggregation in response to agonists	rs12566888	Platelet aggregation	–	5.00E−19	Platelet aggregation, and epinephrine	5.00E−19
A genome-wide association study of the Protein C anticoagulant pathway	rs13130255	Protein C	funcPS	3.00E−06	Anticoagulant levels(funcPS)	3.00E−06