1.DeepVariant 1.0によるゲノム解析精度の向上(3/4)まとめ
・DeepVariantはコードが共通なためIllumina、PacBio、Oxford Nanoporeを同時に改善
・その他にも拡張データセットを使ったトレーニングやハプロタイプを使った改良
・読み取りデータを再整列、後処理にニューラルネットワークを使用などを実施
2.DeepVariant 1.0の改良点
以下、ai.googleblog.comより「Improving the Accuracy of Genomic Analysis with DeepVariant 1.0」の意訳です。元記事の投稿は2020年9月18日、Andrew CarrollさんとPi-Chuan Changさんによる投稿です。
アイキャッチ画像のクレジットはPhoto by Nicolas Hoizey on Unsplash
DeepVariant v1.0の技術的改善点
DeepVariantは各データ型に同じ基本コードを使用しているため、Illumina、PacBio、およびOxford Nanoporeのそれぞれが改善されています。
(1)拡張データセットを使ったトレーニング
米国国立標準技術研究所(NIST:National Institute of Standards and Technology)のGenome in a Bottleコンソーシアムは、ゲノム領域を広くカバーする絶対的な基準となるサンプルを既知のvariantsを使って作成しました。これがDeepVariantをトレーニングするためのラベルとなりました。
Genome in a Bottleは、長い断片を読み取る技術を使用して一連の信頼のおけるvariantsを拡張し、標準セットによって表記出来る領域をゲノムの85%から92%に増やしました。
これらのより困難な領域は、PacBioモデルのトレーニングで既に使用されており、イルミナモデルにそれらを含めると、エラーが11%減少しました。より低いマッピング品質の読み取り用にフィルターを緩和することにより、イルミナのエラーを4%、PacBioのエラーを13%削減しました。
(2)長い読み取りを利用したハプロタイプによる仕分け
私達は母親からDNAのコピーを、父親から別のDNAを継承しています。
PacBioおよびOxford Nanoporeを使った読み取りは、ハプロタイプ(haplotype)と呼ばれる親の起源によって読み取りデータを仕分けするのに十分な長さを持っています。
この情報をニューラルネットワークに提供することにより、DeepVariantはランダムな読み取りエラーの識別を改善し、variantsが一方または両方の親からのコピーを持っているかどうかをより適切に判断できます。
(3)代替対立遺伝子に読み取りデータを再整列
DeepVariantは、参照元ゲノムと照らし合わせるために「読み取りデータの断片」を使用します。
参照元ゲノムと照らし合わせる際、挿入または削除操作が存在する可能性がある事をDeepVariantが知っていると結果が異なってくる可能性があります。
この情報を捕捉するために、候補となるvariantsに関連する追加手順を実装しました。
以下の図は、下段に追加手順を示しています。ここでは、読み取りデータに大きな挿入操作が行われ、候補のvariantsと揃えられています。
上段で突然停止していた並びが完全に整列できるようになり、追加情報が提供できています。
代替対立遺伝子への再調整を含むDeepVariantデータの例
DeepVariantには、同じサンプルの両方のデータ行の情報が表示されています。上図は6つのデータチャネルのうち2つだけが示されています。チャネル#1「Read base」とチャネル#5「Read supports variant」です。上段
参照元データと揃えられた読み取りデータを表示しています。(DeepVariantのv0.10以前の全ての版でこの整列は確認できます)。下段
候補のvariantsに揃えた読み取りデータを示します。(大きな挿入が行われています)。赤い矢印は、挿入操作が開始された位置を示しています。
(4)小規模なネットワークを使用して出力を後処理
variantsには複数の対立遺伝子が存在し、それぞれ両親から異なるベースが継承されています。
DeepVariantは、一度に1つの潜在的なvariantsの確率のみを出力します。以前のバージョンでは、単純な手動設計したルールが確率を複合呼び出しに変換していましたが、これらのルールは一部の極端なケースで失敗していました。更に、最終的な呼び出し処理をネットワークをトレーニングする際に使用している誤差逆伝播法と分離してしまいます。
完全接続された小さなニューラルネットワークを後処理ステップに追加することにより、これらのトリッキーな複数対立遺伝子のケースをより適切に処理できるようになりました。
3.DeepVariant 1.0によるゲノム解析精度の向上(3/4)関連リンク
1)ai.googleblog.com
Improving the Accuracy of Genomic Analysis with DeepVariant 1.0
2)www.nature.com
A universal SNP and small-indel variant caller using deep neural networks
3)github.com
google / deepvariant
kishwarshafin / pepper
4)www.nist.gov
Genome in a Bottle