GWASkb:ゲノムワイド関連解析情報を論文から自動抽出(1/6)

１．GWASkb:ゲノムワイド関連解析情報を論文から自動抽出(1/6)まとめ

・過去に発見された遺伝子情報の中にはデータベースで利用可能な状態になっていない情報もある
・これらの情報は膨大なドキュメントの中に埋もれてしまっており人力での抽出が困難になっている
・GWASkbはデータプログラミングを使って出版物から有用な情報を抽出できるかを挑戦した研究

２．GWASkbとは？

以下、www.nature.comより「A machine-compiled database of genome-wide association studies」の意訳です。元記事は2019年7月26日、Volodymyr Kuleshovさん、Jialin Dingさん、Christopher Voさん、Braden Hancockさん、Alexander Ratnerさん、Yang Liさん、Christopher Réさん、Serafim BatzoglouさんとMichael Snyderさんによる投稿です。

要約
これまでに何万もの遺伝子型と表現型の関連性が発見されていますが、科学者が発見された全ての情報に簡単にアクセスできるわけではありません。ここでは、自動情報抽出アルゴリズムを使用して科学文献から収集された遺伝的関連のナレッジベースであるGWASkb、機械により自動編集された新しい情報活用ナレッジベースについて説明します。

訳注：ゲノムワイド関連解析(GWAS:Genome Wide Association Study)とは、遺伝子が人間に及ぼす病気等の影響を統計学的に調べようとする研究です。遺伝子と病気の関係はLydian Acceleratorのように一つの遺伝子が決定的な影響を及ぼすケースより、多数の遺伝的情報が複合的に影響するケースが多く、その為、ある患者群にはどのような遺伝子が多いのかを統計的に探っていくアプローチが有効なのです。

遺伝子型とは「遺伝子の構成」、表現型とは「遺伝子型の影響、つまり実際に生物の形状や性質として観察できる状態」です。遺伝子型と表現型は一対一の関係ではなく、色々と複雑で且つ、色々な研究者が色々な表記で発表しているので、整理が難しい状況になっており、それを人口知能を使って自動で整理できないかを挑戦した研究です。

人工知能は、お手本を示す教師役の有無や種類により区別されるのですが、基本となるのは「教師あり学習」です。動作イメージは以下です。(あくまで動作イメージです。現在の人工知能はここまで賢くないです)。

教師(supervision)あり学習「いいか、お前等、この画像が蝶だ、この画像は蛾だ、とにかく丸暗記しろ！」
人工知能「うぃーっす」
人工知能「うん？見た事がない画像が出てきたな。まぁ、画像的に近い方にしとけばイイだろ」

それに対して、今回の研究で使われている手法、弱い教師(weak supervision)のイメージは以下です。

弱い教師(weak supervision)あり学習「皆さん、いいですぁ、カラフルなのが蝶々です、地味なのが蛾。止まる時に羽を閉じるのが蝶、開いているのが蛾ですよぉ～」
人工知能「うぃーっす」
人工知能「うん？カラフルなのに羽閉じて止まってる奴いるじゃん。まぁ、カラフルってのが根拠としてはイマイチ怪しげだからこいつは蛾でいいか」

つまり従来の教師付き学習とは、人間が逐一データにラベル、つまりそのデータが何であるのかを文章などでキッチリと説明してやる必要がありましたが、確率論的な考えを組み込んでやると弱い教師のフワフワっとした指示でも実はかなりイケてる事がわかってきました。そして弱い教師は一つ一つのデータに人間が手でラベルを付けるよりかなり楽に実現できます。今回の研究のように膨大なドキュメントの中から遺伝子の関係性を表現する箇所を抜き出すと言う難題が「phenotypeやtrait、またはoutcomeなんて単語が表の側にあったらその表を取ってきてくださいね～」で意外にイケてしまって、更に人的エラーや曖昧さが排除されるので上回る部分さえでてくるのです。

そしてこの事実が「データの収集と整理の部分を柔軟に変更できるようにすれば、現在のディープラーニングシステム(実は動作原理がイマイチ判明していないのでコントロールが難しい事が多い)の挙動を間接的にコントロール出来るのではないか？」と言う考え方に発展し、これがデータプログラミングです。スゴイ！

データプログラミングをより実現しやすくするためにスタンフォードが開発したツールがSnorkel、「シュノーケルを装着した愛らしいタコさん」がトレードマークで今回の研究でも使用されています。

情報抽出システムは、推定リコールが60-80％、推定精度が78-94％(手動でまとめられた既存の知識ベースと比較)で、6,000を超える関連性をオープンアクセス可能な出版物から自動的に収集しました。

このシステムは、完全自動GWASデータ収集システムの取り組みを表しており、データプログラミングと呼ばれる機械学習システムを構築するためのパラダイムによって可能になりました。私達の研究は、自動化されたシステムを使用して、科学文献のキュレーション(情報を収集して取りまとめる作業)をより効率的にするための一歩です。

前書き
ゲノムワイド関連解析(GWAS)は、人間の形質に対する遺伝的変異の影響を測定するために広く使用されています。現在までに約2500 – 3000件の研究が実施されています。それらの結果は、特定のゲノム領域の機能を理解して病気のリスクを推定したり、新たに見つかった遺伝子の相違点の影響を予測するアルゴリズムを訓練するために使用されています。

ほとんどのアプリケーションでは、構造化したデータ形式(コンピュータで扱いやすい形式)でGWASの関連付け情報にアクセスできる必要があります。

公開されたGWASの関連付け情報を構造化データベースでカタログ化するために、いくつかの人間が手動で情報をとりまとめる取り組みが進行中です。ただし、これらの作業には時間と専門知識が必要であり、ヒューマンエラーが発生する可能性もあります。より多くの研究結果が発表されると、情報を収集し、とりまとめるコストも増加していく事が予想されます。

今回、私達は、数千の遺伝子型と表現型の関連性を機械で抽出し編集したナレッジベースであるGWASkbについて説明します。これは、データプログラミングと呼ばれる機械学習システムを構築するためのパラダイムによって可能になった、完全に自動化されたGWAS情報収集システムに関する取り組みです。

GWASkbは589のオープンアクセス可能なGWAS関連出版物から構成され、60-80％の推定リコール、78-94％の推定精度でこれらの出版物から6000を超える関連性を抽出します。(どちらも、同じ入力データセットに対する既存の手動キュレーションされた知識ベースと比較して測定されています)

GWASkbは、既存の知識ベースに追加すべき候補として大量の関連付けを提供するため、キュレーターにとって有用です。これらの関連は、人間の形質の遺伝的基礎を研究し、個人の病気のリスクを推定するために、科学者や臨床医にとっても有用です。

これらの実際のユースケースの理解を容易にするために、GWASkbの作成に使用されたコードを公開し、システムが検出した関連付けを参照するためのオンラインツールも提供しています。更に広く言えば、私達の研究は、メンデル多様体やその他の生物学的情報をキュレートするためのさらなる努力の基礎を形成するかもしれません。