ディープラーニングを用いて前立腺癌による前立腺摘出の必要性の診断を改善する(2/2)

  • 2018.11.19
  • AI
ディープラーニングを用いて前立腺癌による前立腺摘出の必要性の診断を改善する(2/2)

1.ディープラーニングを用いて前立腺癌による前立腺摘出の必要性の診断を改善する(2/2)まとめ

・ディープラーニングシステムは人間より高い精度でグリーソングレーディングを診断できた
・更には病理学者の診断が一致しない事がある原因についても重要なヒントを示した
・今後も更なる精度向上と針生検などの実務場面での使用を想定した改良を続ける

2.ディープラーニングを用いた前立腺癌の診断

以下、ai.googleblog.comより「Improved Grading of Prostate Cancer Using Deep Learning」の意訳です。元記事は2018年11月16日、Martin Stumpeさんによる投稿です。前編からの続きです。

前立腺癌をスコア付けするディープラーニングシステムを開発し、検証するために、私たちは、一般的な臨床検査で良く使われる針生検(針で患部のサンプルを採取して診断や検査に使う手法)のデータではなく、前立腺癌の量と多様性が高い前立腺切除標本の画像を使いました。訓練データは、32人の病理学者が集団で、各画像について、グリーソンパターンの詳細な注釈(注釈付き画像は個々のパーツとしては総件数が11,200万以上になりました)と画像全体のグリーソングレードを採点しました。グリーソンスコアの採点における属人性を克服するために、検証セットの各スライドは3人~5人の病理学者(29人の病理学者の集団から選択)によって独立して格付けされ、その結果を参照して真のラベルを決定しました。

論文内では、私達のディープラーニングシステムは全体で70%の平均精度を達成しました。これは米国の認定病理医によって達成された平均精度61%を上回った事を示しています。能力測定に使用した各スライドの等級付けに協力してくれた10人のハイパフォーマンスな一般病理学者と比較すると、ディープラーニングシステムはその中の8人よりも正確な診断を下しました。ディープラーニングシステムはグリーソンパターンの定量試験でも平均的な病理学者のスコアよりも正確でした。

グリーソングレーディングのこれらの改善は、より良好な臨床リスクの識別につながります。ディープラーニングシステムは、平均な一般病理学者よりも、手術後の再発リスクの高い患者をよりよく識別し、潜在的に医師がこの情報を使用して患者を治療する事を可能にします。


病理学者とのディープラーニングシステムの採点能力の比較
a図:29人の病理学者(緑色)の平均精度と比較したディープラーニングシステムの精度(赤色)。ろうそく足は95%信頼区間を示します。b図:ディープラーニングシステム(赤系統色)、29人の病理学者の集団(緑系統色)、および泌尿生殖器専門病理学者(青系統色)によって提供されたリスク層別化の比較。患者はグリーソングレーディング群に基づいて低リスク群と高リスク群に分けられ、これらのリスク群の曲線間の分離が大きいほど層別化の出来が良いことを示しています。

そしてまた、ディープラーニングシステムは、現在のグリーソングレーディングが5段階評価である事が、病理学者達が診断するグリーソングレーディングに差異が生まれる要因の一つであり、より細かくグリーソングレーディングを等級付けできるのではないかとの可能性を示唆しました。

グリーソングレーディングの中間パターン(例えば、グリーソンパターン3.3や3.7)の臨床的意義は判明していませんが、ディープラーニングシステムの精度の向上は、3.3や3.7に何か病理学的な意義があるのではないかと言う興味深い疑問に対するさらなる研究を促します。


ディープラーニングシステムの領域単位でのグリーソングレーディングの評価
a図:3人の病理学者(pathologists)による診断とディープラーニングシステの診断の比較。 病理学者は、腫瘍の領域の位置およびその程度については見解が一致しますが、グリーソンパターン(色)についてはかなり見解がばらけてしまいます。ディープラーニングシステムによる診断図は、グリーソンパターンの3(緑色),4(黄色),および5(赤色)の3色のみを使うのではなく、領域毎に中間色を補間して色付けすることで表現しています。b図:4100万枚の注釈付き画像パーツに対する3人の病理学者のグリーソングレーディング診断と比較したディープラーニングシステムの診断。 病理学者の診断が不一致になるケースは、患部が2つのグリーソングレーディングの中間に位置している可能性が高く、その場合はディープラーニングシステムはこの曖昧さを予測スコアに反映させています。

これらの研究の初期成果には勇気づけられますが、私たちのディープラーニングシステムのようなシステムを使用して前立腺癌患者の治療を改善する前に、まだまだ膨大な作業が必要です。第1に、モデルの精度は、追加の訓練データを用いてさらに改善することができます。より多数の、より多様な患者を含む独立した集団を対象に検証されるべきです。

さらに、私たちは、今回のディープラーニングシステムを針生検診断時にも利用できるように積極的に改良に取り組んでいます。針生検は、手術を受けるか否かを意思決定するグリーソンスコアの元となる患部の採取に使われるからです。病理学者の診断手順にディープラーニングシステムをどのようにして最適な形で組み込むか、そしてそのような人工知能による診断支援が臨床実践におけるグリーソングレーディングの全体的な効率、精度、予後能力に与える影響を評価するために、さらに沢山の研究が必要です。このように今後に予想される作業は膨大ですが、私たちは癌診断と患者のケアを大幅に改善する可能性があるこの技術の将来性に興奮しています。

謝辞
この作業には、ソフトウェアエンジニア、研究者、臨床医、物流サポートスタッフなど多分野のチームの協力が必要でした。このプロジェクトの主要な貢献者にはKunal Nagpal, Davis Foote, Yun Liu, Po-Hsuan (Cameron) Chen, Ellery Wulczyn, Fraser Tan, Niels Olson, Jenny L. Smith, Arash Mohtashamian, James H. Wren, Greg S. Corrado, Robert MacDonald, Lily H. Peng, Mahul B. Amin, Andrew J. Evans, Ankur R. Sangoi, Craig H. Mermel, Jason D. Hipp そして Martin C. Stumpeが含まれます。
私達はまた、Tim Hesterberg, Michael Howell, David Miller, Alvin Rajkomar, Benny Ayalew, Robert Nagle, Melissa Moran, Krishna Gadepalli, Aleksey Boyko, そして Christopher Gammageにも感謝したいと思います。最後に、この研究のためにデータに注釈をつけてくれた病理学者の皆さんの助けなしには、この研究は実現できませんでした。

参考文献
1)Interobserver Variability in Histologic Evaluation of Radical Prostatectomy Between Central and Local Pathologists: Findings of TAX 3501 Multinational Clinical Trial, Netto, G. J., Eisenberger, M., Epstein, J. I. & TAX 3501 Trial Investigators, Urology 77, 1155–1160 (2011).

2)Phase 3 Study of Adjuvant Radiotherapy Versus Wait and See in pT3 Prostate Cancer: Impact of Pathology Review on Analysis, Bottke, D., Golz, R., Störkel, S., Hinke, A., Siegmann, A., Hertle, L., Miller, K., Hinkelbein, W., Wiegel, T., Eur. Urol. 64, 193–198 (2013).

3)Utility of Quantitative Gleason Grading in Prostate Biopsies and Prostatectomy Specimens, Sauter, G. Steurer, S., Clauditz, T. S., Krech, T., Wittmer, C., Lutz, F., Lennartz, M., Janssen, T., Hakimi, N., Simon, R., von Petersdorff-Campen, M., Jacobsen, F., von Loga, K., Wilczak, W., Minner, S., Tsourlakis, M. C., Chirico, V., Haese, A., Heinzer, H., Beyer, B., Graefen, M., Michl, U., Salomon, G., Steuber, T., Budäus, L. H., Hekeler, E., Malsy-Mink, J., Kutzera, S., Fraune, C., Göbel, C., Huland, H., Schlomm, T., Clinical Eur. Urol. 69, 592–598 (2016).

(ディープラーニングを用いて前立腺癌による前立腺摘出の必要性の診断を改善する(1/2)からの続きです)

3.ディープラーニングを用いて前立腺癌による前立腺摘出の必要性の診断を改善する(2/2)関連リンク

1)ai.googleblog.com
Improved Grading of Prostate Cancer Using Deep Learning