GWASkb:ゲノムワイド関連解析情報を論文から自動抽出(6/6)

１．GWASkb:ゲノムワイド関連解析情報を論文から自動抽出(6/6)まとめ

・GWASkbの作成に使用されたシステムは、Snorkel IEフレームワークの上にPythonで実装されている
・本システムは少数の誤検出を発生させるため、全て自動抽出結果を検証することが推奨される
・GWASkbで報告された6422の関係性の合計精度は78 – 94%と推定される

２．Snorkelによる情報抽出

以下、www.nature.comより「A machine-compiled database of genome-wide association studies」の意訳です。元記事は2019年7月26日、Volodymyr Kuleshovさん、Jialin Dingさん、Christopher Voさん、Braden Hancockさん、Alexander Ratnerさん、Yang Liさん、Christopher Réさん、Serafim BatzoglouさんとMichael Snyderさんによる投稿です。

具体的な手法
GWASkbの作成に使用されたシステムは、Snorkel IEフレームワークの上にPythonで実装されています。Snorkelは、XMLドキュメントを解析し、機械学習分類子をトレーニングするためのユーティリティを提供します。 GWASkbシステムは、Snorkelのパーサー/分類子を拡張し、GWAS抽出タスクに適用します。以下に、システムのさまざまなコンポーネントに関する追加の詳細を示します。

単純な表現型を特定するために、論文のタイトルと要約を解析することから始めました。EFO、Snomed、およびMeshのオントロジーから候補を生成しています。以下を含む11のラベル付け関数(LF)を使用します。
・タイトルで言及されていますか？
・5文字未満の言及ですか？
・言及に名詞が含まれていますか？
・文の前半での言及ですか？
などです。

LFの完全なリストを補足ノート6に含めています。高レベルの表現型は、ユーザー指定のスコアのしきい値を超える3つの最高スコアの言及、またはしきい値を超えない場合は最高スコアを示した単一の言及のセットです。これにより、複数の有効な表現型を処理できます。

正確な表現型を識別するために、テーブルの解析のみから始め、ヘッダーに「表現型(phenotype)」、「形質(trait)」、または「結果(outcome)」という単語が含まれるセルから候補を生成します。候補となるp値は、正規表現で照合することにより生成されます。候補の関係は、水平に並んだ表現型とp値の候補で構成されます。

3つのLF(補足ノート6で提供)を使用しています。
・候補はほとんどが数字ですか？
・セルのヘッダー(表現型の列であることを示す)は非常に長いですか?
・言及にはrsidを指す単語が含まれていますか？

次に、頭字語を解決します。表と本文の主要な自然言語テキストを含む、論文全体を見てこれを行います。

整列させたペアテーブルのセルから候補を抽出します。1つの行に「表現型(phenotype)」、「形質(trait)」、または「説明(description)」というラベルが付けられ、もう1つの行には「略語(abbreviation)」、「頭字語(acronym)」、または「表現型(phenotype)」というラベルが付けられます。

正規表現を使用して、メインテキストから候補を生成します。私たちのLFには、次のものが含まれます。
・候補はSnomed辞書と一致しますか？
・頭字語候補は、表現型候補の各単語の頭文字で構成されていますか？
・一方が他方の接頭辞ですか？
など、略語を解決するためのモジュールは、補足ノート7にリンクされています。

最後に、テーブルから候補を再度生成してp値を特定します。 SNP候補は、正規表現を使用して生成されます。 p値の候補は、3つの正規表現のいずれかに一致するものです。(補足ノート8を参照)。

候補の関係は、水平に並んだSNPとp値の候補で構成されます。(行ごとに最大1つのrsid)。
これらの候補者は正確であり、これら全てを報告します。

データベース間での表現型のマッピング

GWAS CentralおよびGWAS Catalogと比較するために、GWASkb表現型とこれら2つのリポジトリで使用される表現型のマッピングを定義しました。

これらのマッピングは、マッピングが完全にまたは部分的に正しいかどうかも示す約800エントリのテーブルです(例えば、「喫煙行動」は「1日あたりの消費する箱数」よりも正確ではありません)。
後者の方が概念的に正確なラベルを含んでいると定義しますが、前者も役に立たないほど広義ではありません。高レベルおよび低レベルの表現型に関する以前の議論も参照してください。

GWASkbシステムコンポーネントのエラーを理解する
単純な表現型抽出段階でのエラーは、ほとんどの場合、候補辞書に一致する表現型が見つからないときに発生します。(例えば、表現型「双極性患者のゲノムワイド関連研究」の場合、表現型の候補は「双極性障害」しか生成できません。)エラーの主な原因の2番目は、問題ないケースに関して言及される表現型です。(例えば、糖尿病の関連性が報告されている表現型ではないのに、表現型「高体脂肪は糖尿病のリスクです」)。

このモジュールの精度を推定するために、最初に、GWASkbによって生成された関係性(論文、rsid、表現型)に限定しました。これは、rsidによって指定された多様体が、論文(ただし、必ずしも同じ表現型の論文ではありません)、次に、表現型も正しい(おおよそのレベルで)これらの関係の割合を調べます。これにより、GWAS Catalogで97％、GWAS Centralで96％の精度が得られます。

正確な表現型抽出段階でのエラーのほとんどは、頭字語を正しく解決できないため、または低レベルの表現型がテーブルに存在しないため(テキストのみに存在するため)に発生します。略称は完全な頭字語と明確に関連していない事があるため(Cysteine proteinase inhibitor 5 precursorがCYS5が略される)、ほとんどの場合解決されず、更に表記ブレが存在する状態で表形式に表示されます。単純な表現型と同じ方法で精度を推定しますが、この段階では、表現型が完全に一致することを要求します。最も正確な表現型を持つデータベースであるGWAS Centralでは精度は73％でした。GWAS Centralでは、82％でした。

p値の抽出精度を評価するために、100個のランダムな関係性を手でラベル付けして計測した結果、ルールベースの抽出手順の精度は98％でした。ハプロタイプなど、p値が行内の他のエンティティを参照したときにエラーが発生していました。また、多くの場合、多様体とそのp値はテキスト内でのみ提供され、テーブルの形式で提供されていません。これが、GWAS Catalogで584(15％)、GWAS Centralで432(14％)の関連性のrsidを報告できなかった主な理由です。

今回発見した新しい100を超える多様体がGWAS Catalogに含まれていなかった理由の分析結果

次のいずれかの理由により、100を超える多様体がGWAS Catalogに含まれていませんでした。

(1)44の多様体
1つの分析コホートでは重要であっても、複合メタ分析では重要ではない多様体です。このような関連付けは、enrichment analysisなどのいくつかのアプリケーションで依然として有用であると考えられます。これらの多様体を使いやすくするために、各多様体のメタデータのセットを抽出しました。(前項で説明しています)研究者はこのメタデータを使用して、メタ分析で重要ではない関連性を判断できます。

(2)27の多様体
多様体は、GWAS Catalogにも掲載されてるより重要な多様体と同じ座位(locus)にあります。
ただし、これら2つの多様体間のLDは弱いです。2つのバリアントが同じ座位にある(つまり、同じゲノム領域内にある)にもかかわらず、それらは強いLDではない場合があります。これは非常に頻繁に起こることがわかりました。

NIHのオンラインツールを使用して、推定LD数(これらはThousand Genomes datasetから導出されました)を検証しました。分析では、研究に利用できる最も正確な母集団(CEU、EUR、ALLなど)でr2 <0.5を、弱いLDのしきい値として使用しました。推定値とNIHツールの両方に従ってLDが弱い場合、今回提案された関係性のカタログ化は研究者にとって有用であると考えています。

(3)9の多様体
多様体は、GWAS Catalogにも存在する重要な多様体と同じ座位にあります。これら2つの多様体間のLDは強力です。これらの多様体は、弱いLDにある多様体のようには役に立たない場合があります。ただし、それらを含めることは、いくつかのユースケースで依然として有用な場合があります。LDの強弱の構成を決めるLDカットオフは、将来変更される可能性があるためです。これらの多様体を収集すると、ユーザーは後で自分のニーズに関連するデータのサブセットを選択できます。

(4)8の多様体
多様体は以前の論文に記載されていますが、今回解析した論文でも重要であることがわかりました。
この多様体は、以前の研究および現在の研究の発見段階(discovery stage)で重要であることが判明しましたが、そのメタ分析段階ではそうではありませんでした。GWAS Catalogガイドラインは、そのような多様体は含めるべきであると示していますが、含まれていない場合もあります。

(5)5の多様体
多様体は以前の論文に記載されていますが、今回解析した論文では重要ではありませんでした。この多様体は以前の研究で重要であると思われていましたが、現在の研究の発見段階で重要ではないため、GWAS Catalogに含まれていない事は正しいです。

(6)7の多様体
GWASkbのデータ抽出エラー。これらの多様体の誤った表現型を抽出していました。

上記の多様体のほとんどは、科学的な理由によりGWAS Catalogから除外されています。ただし、これらの多様体はまだ研究者に意義を持つため、これらの多くの多様体をより広範なデータベースに含める事をお勧めします。これらには、以前の研究から掘り出された8つの多様体、GWAS Catalogの多様体と同じ座位にあってもLDが弱い27の多様体、つまり合計35の多様体が含まれます。

更に、メタ分析で複製されていない44個の多様体と、GWAS Catalog掲載多様体とr2?0.5の弱いLDにある9個の多様体、(合計50の多様体)も、前述のように、限定的なアプリケーションで有用と思われます。残りの12の多様体はまとめる価値がなく、GWASkbのエラーです。詳細については、補足ノート4を参照してください。

まとめ：以下は今回の分析の重要なポイントです。
・採用基準はGWAS Catalogよりも厳しくありませんが、GWAS Centralなど、他の人間が管理するデータベースの基準に匹敵します。

・関連付けの拡張セット(その大部分は有効であり、効率的に検証できます)の提供により、キュレーターを支援できる可能性があります。GWAS Catalogにない追加の多様体は、特定の分析には依然として有用ですが、研究者はそれらを使用する前に要不要の判断を下す必要があります。

・このシステムは少数の誤検出を発生させます。そのため、全て自動抽出結果を検証することをお勧めします。しかし、検証プロセスは発見プロセスよりもはるかに高速に実行可能であると予想されます。

GWASkbの精度の推定
システムの出力仕様に対して全体の精度を94％と見積もっています。システムによって報告された6422の関連付けのうち、3463は既存のデータベース(GWAS CatalogまたはGWASセントラル)で確認できるため、正しいと見なされます。

他の2959の関係性のエラー率は、12%(誤った関係性と繰り返しの関係性。これらはGWASkbの仕様によるものです)と53%(メタ分析で確認されていない44のバリアントを追加する場合、これらは信頼性が最も低い関連性のセットです)。報告された6422の関係性の合計精度は78 – 94%と推定されます。

データについて
今回の研究で使用されている完全なデータセットとコードは、githubのgwaskbリポジトリから入手できます。
作成されたナレッジベースのGwasKBは、スタンフォード大学のWebポータルからもアクセスできます。
他のすべてのデータは、記事とその補足情報に含まれています。(ソースデータフォルダーには、ソースコード、論文やオントロジーを含む生の入力データ、追加の図表、追加のJupyterノートブックが含まれます。補足ノート5を参照)。

コードについて
今回の研究で使用されている完全なデータセットとコードは、githubのgwaskbリポジトリから入手できます。
このリポジトリには、コードの実行と結果の再現に関する完全なドキュメントが含まれています。

謝辞
この研究は、国立衛生研究所（NIH）CEGS 5P50HG00773504からの研究助成金によって支援されました。V.Kは、NSERC post-graduate fellowshipとVMWare Stanford Graduate Fellowshipによって支援されました。B.Hは、NNSF Graduate Research Fellowship DGE-114747およびStanford Finch Family Fellowshipによって支援されました。A.Rは、Stanford Bio-X Interdisciplinary Graduate Fellowshipによって支援されました。

B.H、A.R、およびC.Rは、DARPAのNos. FA87501720095 (D3M)、FA86501827865 (SDH), NIH under No. N000141712266 (Mobilize), NSF under Nos. CCF1763315 (Beyond Sparsity) そして CCF1563078 (Volume to Velocity), ONR under No. N000141712266 (Unifying Weak Supervision), the Moore Foundation, NXP, Xilinx, LETI-CEA, Intel, Google, NEC, Toshiba, TSMC, ARM, Hitachi, BASF, Accenture, Ericsson, Qualcomm, Analog Devices, 公益財団法人大川情報通信基金、そして American Family Insurance、 Stanford DAWN projectのメンバー( Intel, Microsoft, Teradata, Facebook, Google, Ant Financial, NEC, SAP, VMWare)によって支援されました。米国政府は、著作権表記にかかわらず、公の目的で転載、複製および配布する権限を与えられています。この資料で表明された意見、調査結果、結論または推奨事項はすべて著者のものであり、DARPA、NIH、ONR、または米国政府の見解、ポリシー、または推奨事項（表明または暗示）を必ずしも反映するものではありません。

３．GWASkb:ゲノムワイド関連解析情報を論文から自動抽出(6/6)関連リンク

１）www.nature.com
A machine-compiled database of genome-wide association studies

２）github.com
kuleshov/gwaskb

３）gwaskb.stanford.edu
GWASKB

４）リファレンス

(1)Bush, W. S. & Moore, J. H. Chapter 11: genome-wide association studies. PLoS Comput. Biol. 8, 1-11 (2012).

(2)Welter, D. et al. The NHGRI GWAS Catalog, a curated resource of SNP-trait associations. Nucleic Acids Res. 42, D1001–D1006 (2014).

(3)Beck, T., Hastings, R. K., Gollapudi, S., Free, R. C. & Brookes, A. J. GWAS Central: a comprehensive resource for the comparison and interrogation of genome-wide association studies. Eur. J. Hum. Genet. 22, 949–952 (2013).

(4)Cariaso, M. & Lennon, G. SNPedia: a wiki supporting personal genome annotation, interpretation and analysis. Nucleic Acids Res. 40, D1308–D1312 (2012).

(5)Promethease

(6)de Leeuw, C. A., Mooij, J. M., Heskes, T. & Posthuma, D. MAGMA: generalized gene-set analysis of GWAS data. PLoS Comput. Biol. 11, e1004219+ (2015).

(7)Weng, L. et al. SNP-based pathway enrichment analysis for genome-wide association studies. BMC Bioinforma. 12, 99+ (2011).

(8)Zhou, J. & Troyanskaya, O. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).

(9)Ratner, A. J., De Sa, C.M., Wu, S., Selsam, D. & Ré, C. Data programming: Creating large training sets, quickly. Adv. Neural Inf. Process. Syst. 3567–3575.

(10)Ratner, A. J., Bach, S. H., Ehrenberg, H. R. & Ré, C. Snorkel: fast training set generation for information extraction. Proc. of the 2017 ACM International Conference on Management of Data 1683–1686 (2017).

(11)Manning, C. D. et al. The Stanford CoreNLP Natural Language Processing Toolkit. Association for Computational Linguistics (ACL) System Demonstrations 55–60 (2014).

(12)Mintz, M., Bills, S., Snow, R. & Jurafsky, D. Distant supervision for relation extraction without labeled data. Proc. Jt. Conf. 47th Annu. Meet. ACL 4th Int. Jt. Conf. Nat. Lang. Process. AFNLP 2, 1003–1011 (2009).

(13)McLean, C. Y. et al. GREAT improves functional interpretation of cis-regulatory regions. Nat. Biotechnol. 28, 495–501 (2010).

(14)Zheng, J. et al. LD Hub: a centralized database and web interface to perform LD score regression that maximizes the potential of summary level GWAS data for SNP heritability and genetic correlation analysis. Bioinformatics 33, 272–279 (2017).

(15)Moens, M. Information Extraction: Algorithms and Prospects in a Retrieval Context. (Springer, Netherlands, 2009).

(16)Tumarkin, R. & Whitelaw, R. F. News or noise? Internet postings and stock prices. Financ. Anal. J. 57, 41–51 (2001).

(17)Das, S. & Chen, M. Yahoo! for Amazon: Extracting Market Sentiment from Stock Message Boards. Proc. Asia Pacific Finance Association Annual Conference (APFA) (2001).

(18)Zhang, C. et al. GeoDeepDive: statistical inference using familiar data-processing languages. Proc. 2013 ACM SIGMOD International Conference on Management of Data. 993–996.

(19)Zhou, X., Han, H., Chankai, I., Prestrud, A. & Brooks, A. Approaches to text mining for clinical medical records. Proc. 2006 ACM Symposium on Applied Computing. 235–239.

(20)Percha, B., Garten, Y. & Altman, R. B. Discovery and explanation of drug-drug interactions via text mining. Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing 410–421 (2012).

(21)Rinaldi, F., Schneider, G. & Clematide, S. Relation mining experiments in the pharmacogenomics domain. J. Biomed. Inform. 45, 851–861 (2012).

(22)Pletscher-Frankild, S., Palleja, A., Tsafou, K., Binder, J. X. & Jensen, L. J. DISEASES: text mining and data integration of disease-gene associations. Methods 74, 83–89 (2015).

(23)Jain, S. et al. Weakly supervised learning of biomedical information extraction from curated data. BMC Bioinforma. 17, S1 (2016).