1.機械学習を使ってゲノムの発見を改善(1/2)まとめ
・人が持つゲノムは、30億文字を超えるDNAで構成されているがごく一部が個人によって異なる
・個人固有のゲノムは健康状態に影響を与えるのでその関連性を調べる研究がGWAS
・従来は専門家の力に頼っていたGWASに機械学習アプローチを持ち込んでみた
2.ゲノムワイド関連研究とは?
以下、ai.googleblog.comより「Improving Genomic Discovery with Machine Learning」の意訳です。元記事の投稿は2021年6月23日、 Andrew CarrollさんとCory McLeanさんによる投稿です。
以下、用語整理ですが、
・DNA(デオキシリボ核酸):タンパク質を作るための設計図。二重らせん構造
・ゲノム:生物の形質を決定するために必要なひと揃いの遺伝情報
DNAが「部品の設計図」だとするとゲノムは「車の設計図」のような概念。「特定のネジを使うと車の速度が速くなる」のように部品レベルで原因と結果が簡単に判明する事は少ないので、車レベルで特徴を観察して影響を与えている部品の組み合わせを特定していくアプローチが有効で、それが「ゲノムワイド関連研究(GAWS:Genome-Wide Association Study)」です。
微妙な特徴を見つけ出して分類する?それって人工知能ちゃんの大得意科目の分類問題だよね!って事で人工知能ちゃんにGAWSをお願いしてみましたぁ~、ってのが今回のお話です。
アイキャッチ画像はヒトゲノム計画で解読された全ヒトゲノムの製本でクレジットはPhoto by Catrina Carrigan on Unsplash
個々人が持っているゲノムは、30億文字を超えるDNAで構成されており、DNAは生まれ持った生化学的機構を集合的にコード化しています。
ただし、ゲノムのごく一部(約400万から500万)の位置のみが個人間で異なります。それにもかかわらず、各人の固有のゲノムは、彼らが経験する環境と相互作用して、彼らの健康状態の大部分を決定します。遺伝的変異と形質の関係を理解するための重要な方法は、ゲノムワイド関連研究(GWAS:Genome-Wide Association Study)です。この研究では、集団内に存在する各遺伝的変異を個別に調べて、対象の形質との相関を調べます。
GWASの結果は、関心のある疾患に強く関連する遺伝子を特定することにより、個々人に存在する潜在的な治療標的を特定して優先順位を付けるために使用できます。また、変異の複合的な影響に基づいて個人が持つ疾患の素因を予測するためのポリジーン リスク スコア(PRS:Polygenic Risk Score)を構築するためにも使用できます。
しかしながら、GWASには「個々人の特性(phenotyping、表現型と呼ばれます)」を正確に測定する事が必要になりますが、多くの場合、これは骨の折れる作業であり、専門家によるまとめや主観的な判断をする事が必要になります。
論文「Large-scale machine learning-based phenotyping significantly improves genomic discovery for optic nerve head morphology」では、機械学習(ML:Machine Learning)モデルを使用して医用画像データを分類する手法を用いてGWASを改善する方法を示します。
表現型を分類するモデルをトレーニングして形質予測を生成する方法と、これらの予測を使用して新しい遺伝的関連を特定する方法について説明します。次に、発見された新しい関連性がPRSの精度を改善し、緑内障を例として使用して、解剖学的な眼の特徴が人間の病気に関連していることを示します。Genomics ResearchのGitHubリポジトリでモデルのトレーニングコードと詳細なドキュメントをリリースしています。
目の解剖学的特徴に関連する遺伝的変異を特定
以前の研究では、MLモデルが眼の疾患、皮膚疾患、および異常なマンモグラムを、医療の専門家が行った最先端治療に近いかそれを超える精度で識別できることが実証されています。
疾患を特定する事は表現型の特定の一部であるため、MLモデルを広く使用してGWASにおける表現型を決定する速度と品質を向上させることができると考えました。
これを確かめるために、眼底画像を使用して、患者が緑内障か否かを診察する必要があるかどうかを正確に予測するモデルを選択しました。このモデルは、眼底画像を使用して、視神経乳頭の直径(視神経が網膜に接続する領域)と視神経乳頭陥凹(視神経乳頭の中心にある白っぽい領域)を予測します。
これら2つの解剖学的特徴の直径の比率(VCDR(Vertical Cup-to-Disc Ratio)、陥凹乳頭径比と呼ばれる)は、緑内障のリスクと強く相関しています。
緑内障の重要な診断測定値である、垂直方向のカップ対ディスク比を示す代表的な網膜眼底画像
このモデルを適用して、UK Biobank内に登録されている個人の眼底画像からVCDRを予測しました。UK Biobankは、世界中の研究者が公共の利益のために健康関連の研究に利用できる世界最大のデータセットです。
約500,000人の仮名化(UK Biobankの匿名化の基準)された個人の広範な表現型および遺伝子データが含まれています。次に、このデータセットでGWASを実行して、VCDRのモデルベースの予測に関連する遺伝的変異を特定しました。
臨床データでトレーニングされたVCDR予測モデルを適用して、VCDRの予測値を生成し、VCDR特性の遺伝的関連性の発見を可能にしました。
3.機械学習を使ってゲノムの発見を改善(1/2)関連リンク
1)ai.googleblog.com
Improving Genomic Discovery with Machine Learning
2)www.cell.com
Large-scale machine-learning-based phenotyping significantly improves genomic discovery for optic nerve head morphology
3)github.com
Google-Health / genomics-research / ml-based-vcdr /