1.DeepVariantが多種多様なゲノムデータで正確性を向上まとめ
・Googleがゲノム解析ツールであるDeepVariant0.6を公開
・フルエクソームシーケンスとポリメラーゼ連鎖反応の正確性が向上
・DeepVariantはオープンソースとしてgithubで公開されている
2.DeepVariantとは?
なお、本文中のPCRはコロナで一気にメジャーになったPCR検査のPCRです。
2020年9月追記)DeepVariant 1.0に関する後続研究記事が投稿されています。
昨年12月にGoogleが発表したDeepVariantはゲノム配列や「個人を特定できるぐらい詳細なレベルの遺伝子の相違点」(Variantsと呼ばれる)を解析するためのツールでディープラーニングを使っている。DeepVariantのアプローチは画像分類を行う人工知能の手法を意識したもので、これはこれで以前の手法に比べて正確性が向上した。
本日、Googleは多様なゲノムデータで正確性を向上した DeepVariant v0.6をリリースした。今回正確性が向上したゲノム解析法には有名な下記2手法が含まれる。
1)フルエクソームシーケンス(WES)
エクソーム(ヒトゲノムのタンパク質コーティング領域)は、ゲノムに占める割合が2%未満だが、既知の疾患情報が約85%含まれているため、全ゲノムを解析せずとも代替出来るコストパフォーマンスの良い手法。例えば、中国の新生児の遺伝子検査サービスだとエクソームの検査は1495ユーロ、全ゲノムの検査が3990ユーロ。
2)ポリメラーゼ連鎖反応(PCR)
非常に長大なDNA分子の中から、解析したい特定のDNA断片だけを選択的に増幅させることができる手法
ゲノム解析に使うゲノムデータは、
・サンプル取得に何を使うか(血液、唾液など)
・DNAの処理方法(どのように増幅させるか?)
・どのような機器を使うか?(同一ベンダーでもデータ形式が異なるケースあり)
・どのくらいの量のゲノムを対象にするか?
によって、千差万別でそれぞれ異なったデータタイプになる。
一般的なゲノム解析ツールは特定のデータタイプや機器に特化しており、その他のデータタイプでは貧弱なパフォーマンスしか発揮できない。それに対して、DeepVariantは新しいデータタイプに対してもその新しいデータタイプを代表するようなデータを学習プロセスに加える事によって、正確な解析を行う事が出来る。
ディープラーニングの性能は学習用データの品質に作用される。ゲノム解析の分野では、アメリカ国立標準技術研究所(NIST)がホストするゲノム イン ア ボトルコンソーシアム(GIAB)が提供するベンチマークとなるゲノムデータ、HG001がある。HG001は北欧にルーツを持つ女性のゲノムデータで、商用利用可能であるため様々な解析ツールのテストデータとして使われる。GoogleもHG001を使い様々な学習用データを作成し、DeepVariantの性能を向上させた。
・DeepVariant0.5の改良点
0.5ではGIABが提供する2つめのベンチマークデータであるHG002、東欧にルーツを持つユダヤ系の男性のゲノムデータも使い、主にフルエクソームシーケンス(WES)の改良に集中した。
・DeepVariant0.6の改良点
今回リリースしたDeepVariant0.6ではポリメラーゼ連鎖反応(PCR)の正確性の向上に集中した。PCRは簡易で安価にDNAを増幅させる事ができるが、増幅させた後のデータはPCR+(PCR positive)となる。PCRは良く知られている手法であるが、エラーを誘発しがちである。また、最近、PCRを使わない(PCR-free)手法が増えつつある。v0.6より前の学習用データは、PCR-freeのデータを主に使っていたため、PCRに関してはDeepVariantは他に劣っていた。v0.6ではPCR+もDeepVariantの学習用データに加えため、PCRの正確性が大きく向上した。
DeepVariantはオープンソースとしてgithubで公開されている。
3.DeepVariantが多種多様なゲノムデータで正確性を向上関連リンク
1)research.googleblog.com
DeepVariant Accuracy Improvements for Genetic Datatypes
2)github.com
DeepVariant 0.6.0