DeepVariant 1.0によるゲノム解析精度の向上(3/4)

１．DeepVariant 1.0によるゲノム解析精度の向上(3/4)まとめ

・DeepVariantはコードが共通なためIllumina、PacBio、Oxford Nanoporeを同時に改善
・その他にも拡張データセットを使ったトレーニングやハプロタイプを使った改良
・読み取りデータを再整列、後処理にニューラルネットワークを使用などを実施

２．DeepVariant 1.0の改良点

以下、ai.googleblog.comより「Improving the Accuracy of Genomic Analysis with DeepVariant 1.0」の意訳です。元記事の投稿は2020年9月18日、Andrew CarrollさんとPi-Chuan Changさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Nicolas Hoizey on Unsplash

DeepVariant v1.0の技術的改善点
DeepVariantは各データ型に同じ基本コードを使用しているため、Illumina、PacBio、およびOxford Nanoporeのそれぞれが改善されています。

(1)拡張データセットを使ったトレーニング
米国国立標準技術研究所(NIST:National Institute of Standards and Technology)のGenome in a Bottleコンソーシアムは、ゲノム領域を広くカバーする絶対的な基準となるサンプルを既知のvariantsを使って作成しました。これがDeepVariantをトレーニングするためのラベルとなりました。

Genome in a Bottleは、長い断片を読み取る技術を使用して一連の信頼のおけるvariantsを拡張し、標準セットによって表記出来る領域をゲノムの85%から92%に増やしました。

これらのより困難な領域は、PacBioモデルのトレーニングで既に使用されており、イルミナモデルにそれらを含めると、エラーが11%減少しました。より低いマッピング品質の読み取り用にフィルターを緩和することにより、イルミナのエラーを4%、PacBioのエラーを13%削減しました。

(2)長い読み取りを利用したハプロタイプによる仕分け
私達は母親からDNAのコピーを、父親から別のDNAを継承しています。

PacBioおよびOxford Nanoporeを使った読み取りは、ハプロタイプ(haplotype)と呼ばれる親の起源によって読み取りデータを仕分けするのに十分な長さを持っています。

この情報をニューラルネットワークに提供することにより、DeepVariantはランダムな読み取りエラーの識別を改善し、variantsが一方または両方の親からのコピーを持っているかどうかをより適切に判断できます。

(3)代替対立遺伝子に読み取りデータを再整列
DeepVariantは、参照元ゲノムと照らし合わせるために「読み取りデータの断片」を使用します。

参照元ゲノムと照らし合わせる際、挿入または削除操作が存在する可能性がある事をDeepVariantが知っていると結果が異なってくる可能性があります。

この情報を捕捉するために、候補となるvariantsに関連する追加手順を実装しました。

以下の図は、下段に追加手順を示しています。ここでは、読み取りデータに大きな挿入操作が行われ、候補のvariantsと揃えられています。

上段で突然停止していた並びが完全に整列できるようになり、追加情報が提供できています。

代替対立遺伝子への再調整を含むDeepVariantデータの例
DeepVariantには、同じサンプルの両方のデータ行の情報が表示されています。上図は6つのデータチャネルのうち2つだけが示されています。チャネル＃1「Read base」とチャネル＃5「Read supports variant」です。上段
参照元データと揃えられた読み取りデータを表示しています。(DeepVariantのv0.10以前の全ての版でこの整列は確認できます)。下段
候補のvariantsに揃えた読み取りデータを示します。(大きな挿入が行われています)。赤い矢印は、挿入操作が開始された位置を示しています。

(4)小規模なネットワークを使用して出力を後処理
variantsには複数の対立遺伝子が存在し、それぞれ両親から異なるベースが継承されています。

DeepVariantは、一度に1つの潜在的なvariantsの確率のみを出力します。以前のバージョンでは、単純な手動設計したルールが確率を複合呼び出しに変換していましたが、これらのルールは一部の極端なケースで失敗していました。更に、最終的な呼び出し処理をネットワークをトレーニングする際に使用している誤差逆伝播法と分離してしまいます。

完全接続された小さなニューラルネットワークを後処理ステップに追加することにより、これらのトリッキーな複数対立遺伝子のケースをより適切に処理できるようになりました。