医療向けMLの開発から学んだ教訓(2/2)

１．医療向けMLの開発から学んだ教訓(2/2)まとめ

・機械学習を評価する際には不適切なチューニングでパフォーマンスが過大評価されてないか留意が必要
・特に医療分野と機械学習分野では用語の意味が異なる「検証セット」が誤解を招く恐れがある
・機械学習における検証セット(validation dataset)は「チューニングセット(tuning set)」の表記が望ましい

２．医師が機械学習を評価する際のポイント

以下、ai.googleblog.comより「Lessons Learned from Developing ML for Healthcare」の意訳です。元記事は2019年12月10日、Yun LiuさんとPo-Hsuan Cameron Chenさんによる投稿です。

モデルのパフォーマンスの検証も医療領域では他の領域と大幅に異なります。

学習データと検証データの扱いが異なるためです。典型的な機械学習研究では、データセットをランダムに分割してテストします。

対照的に、医療分野では、人口統計または疾患の細かい違いを示す可能性のある異なる患者集団を持つ複数の独立した評価データセットを使用して検証します。

好ましい検証方法は取り扱う課題によって異なってくるため、MLの実践者は臨床の専門家と密接に協力して研究を設計し、特にモデルの検証とパフォーマンスを測定する基準が臨床設定に適切であることを確認する必要があります。

また、研究結果として得られる支援ツールを業務で有効活用出来るようにするためには、手軽に現在の業務フローに統合出来るようにする思慮深い設計も必要です。

また、これらのツールが診断の精度と業務フローの効率化に与える影響を測定出来るようにする事を考慮してください。

重要なことは、これらのツールの現実世界への影響をよりよく理解し、現実世界の患者のためにこれらのツールに前向きに取り組む事はかなりの価値があると言う事です。

最後に、検証と業務フローへの統合が可能になった後でも、現実世界で展開するための道のりはまだ始まったばかりです。規制当局の承認と、現実世界で実際に使用される事で発生する予期しないエラーや有害事象を時系列で継続的に監視する試みなどが引き続き行われます。

糖尿病性眼疾患および転移性乳がんの検出における私達の研究に基づいた、医療用の機械学習モデルの開発、検証、および実装を橋渡しする事例

医療用機械学習への理解を深めるための医師への支援
JAMAで発行された「Users’ Guide to the Medical Literature: How to Read Articles that use Machine Learning」では、主要な機械学習の概念をまとめて、医師が業務フロー内に機械学習を適切に持ち込むために機械学習研究を評価できるようにします。

この記事の目標は、機械学習の神秘を解き明かし、機械学習システムを使用する必要がある医師が、機械学習の基本機能、どのような場合に信頼する事が出来、およびどのような潜在的な制限を持つのかを理解する事を支援します。

機械学習が関係する研究でなくても、研究を評価する際に医師が尋ねる中心的な質問が存在します。
・参照標準は信頼できますか？
・評価に偏りはありませんか？偽陽性と偽陰性の両方を評価していますか？
・臨床医が出した診断結果と公平な比較を行っていますか？
・私が診察している患者集団でも同様なパフォーマンスが期待できますか？
・機械学習モデルは、私が患者を診察する際にどのような助けになりますか？

上記質問に加えて、最終性能評価時に使用するデータセットとは無関係のデータセットで機械学習モデルを学習させているかを判断するために、機械学習モデルも精査する必要があります。

不適切なチューニングは、パフォーマンスを大幅に過大評価する可能性があるため、これは特に重要です。

モデルを学習データセットで学習させすぎると学習データセットを完全に記憶してしまうため、学習データセットを使って検証すると素晴らしいパフォーマンスを発揮できても、現実世界のデータを使って検証すると非常に悪いパフォーマンスしか発揮できない事があります。(過学習)

チューニングが適切に行われたことを確認するには、データセットの命名のあいまいさを意識する必要があり、特に、聴衆が最もよく知っている用語を使用する必要があります。

2つのフィールドの交差点における用語定義の衝突
機械学習分野とヘルスケア分野は、「検証データセット(validation dataset)」という用語が異なった意味で使われおり、曖昧さを生み出します。

通常、機械学習では検証セット(validation dataset)はハイパーパラメーターを調整するために使用されるデータセットを意味します。しかしヘルスケアでは通常「臨床検証セット(clinical validation set)」とは最終評価に使用するデータセットを意味します。

この混乱を避けるため、機械学習における検証データセットを「チューニングセット(tuning set)」として表記する事にしています。

今後の見通し
医療のためのAIに取り組むエキサイティングな時間です。しかし、基礎研究から臨床現場に至る道は長い道のりであり、複数の分野の研究者や専門家がこれを橋渡しするために協力する必要があります。

今回の2つの記事が、
・機械学習の実践者がヘルスケア用のモデルを開発する際に何が重要になるのか？
・医師が医療用機械学習モデルを評価する際に何に注目するべきなのか？
を強調する事によって、相互理解を促進し、異なるフィールド間の更なるコラボレーションを促進し、最終的に患者のケアにプラスの影響をもたらすことを願っています。

謝辞
本プロジェクトの主要な貢献者には、Yun Liu, Po-Hsuan Cameron Chen, Jonathan KrauseおよびLily Pengが含まれます。著者等は、Greg CorradoとAvinash Varadarajanのアドバイスに感謝し、Google Healthチームのサポートに感謝します。