DeepVariantが多種多様なゲノムデータで正確性を向上

１．DeepVariantが多種多様なゲノムデータで正確性を向上まとめ

・Googleがゲノム解析ツールであるDeepVariant0.6を公開
・フルエクソームシーケンスとポリメラーゼ連鎖反応の正確性が向上
・DeepVariantはオープンソースとしてgithubで公開されている

２．DeepVariantとは？

以下、ai.googleblog.comより「DeepVariant Accuracy Improvements for Genetic Datatypes」の要約です。元記事の投稿は2018年4月19日、Pi-Chuan ChangさんとLizzie Dorfmanさんによる投稿です。
なお、本文中のPCRはコロナで一気にメジャーになったPCR検査のPCRです。
2020年9月追記）DeepVariant 1.0に関する後続研究記事が投稿されています。

昨年12月にGoogleが発表したDeepVariantはゲノム配列や「個人を特定できるぐらい詳細なレベルの遺伝子の相違点」（Variantsと呼ばれる）を解析するためのツールでディープラーニングを使っている。DeepVariantのアプローチは画像分類を行う人工知能の手法を意識したもので、これはこれで以前の手法に比べて正確性が向上した。

本日、Googleは多様なゲノムデータで正確性を向上した DeepVariant v0.6をリリースした。今回正確性が向上したゲノム解析法には有名な下記２手法が含まれる。

１）フルエクソームシーケンス(WES)
エクソーム（ヒトゲノムのタンパク質コーティング領域）は、ゲノムに占める割合が2%未満だが、既知の疾患情報が約85%含まれているため、全ゲノムを解析せずとも代替出来るコストパフォーマンスの良い手法。例えば、中国の新生児の遺伝子検査サービスだとエクソームの検査は1495ユーロ、全ゲノムの検査が3990ユーロ。

２）ポリメラーゼ連鎖反応(PCR)
非常に長大なDNA分子の中から、解析したい特定のDNA断片だけを選択的に増幅させることができる手法

ゲノム解析に使うゲノムデータは、
・サンプル取得に何を使うか（血液、唾液など）
・DNAの処理方法（どのように増幅させるか？）
・どのような機器を使うか？（同一ベンダーでもデータ形式が異なるケースあり）
・どのくらいの量のゲノムを対象にするか？
によって、千差万別でそれぞれ異なったデータタイプになる。

一般的なゲノム解析ツールは特定のデータタイプや機器に特化しており、その他のデータタイプでは貧弱なパフォーマンスしか発揮できない。それに対して、DeepVariantは新しいデータタイプに対してもその新しいデータタイプを代表するようなデータを学習プロセスに加える事によって、正確な解析を行う事が出来る。

ディープラーニングの性能は学習用データの品質に作用される。ゲノム解析の分野では、アメリカ国立標準技術研究所(NIST)がホストするゲノムインアボトルコンソーシアム(GIAB)が提供するベンチマークとなるゲノムデータ、HG001がある。HG001は北欧にルーツを持つ女性のゲノムデータで、商用利用可能であるため様々な解析ツールのテストデータとして使われる。GoogleもHG001を使い様々な学習用データを作成し、DeepVariantの性能を向上させた。

・DeepVariant0.5の改良点
0.5ではGIABが提供する２つめのベンチマークデータであるHG002、東欧にルーツを持つユダヤ系の男性のゲノムデータも使い、主にフルエクソームシーケンス(WES)の改良に集中した。

・DeepVariant0.6の改良点
今回リリースしたDeepVariant0.6ではポリメラーゼ連鎖反応(PCR)の正確性の向上に集中した。PCRは簡易で安価にDNAを増幅させる事ができるが、増幅させた後のデータはPCR+（PCR positive）となる。PCRは良く知られている手法であるが、エラーを誘発しがちである。また、最近、PCRを使わない(PCR-free)手法が増えつつある。v0.6より前の学習用データは、PCR-freeのデータを主に使っていたため、PCRに関してはDeepVariantは他に劣っていた。v0.6ではPCR+もDeepVariantの学習用データに加えため、PCRの正確性が大きく向上した。

DeepVariantはオープンソースとしてgithubで公開されている。