胸部X線画像を用いた深層学習モデルの開発(2/2)

胸部X線画像を用いた深層学習モデルの開発(2/2)

1.胸部X線画像を用いた深層学習モデルの開発(2/2)まとめ

・モデルは放射線科医が一貫して見逃した病巣をしばしば特定する事があった
・また、逆にモデルが見逃した病巣を放射線科医が発見する事もあった
・ディープラーニングと人間のスキルを組み合わせる戦略は医療分野におけるAIの有望な使われ方候補

2.ディープラーニングと放射線科医レビューの組み合わせ

以下、ai.googleblog.comより「Developing Deep Learning Models for Chest X-rays with Adjudicated Image Labels」の意訳です。元記事は2019年12月3日、Dave SteinerさんとShravya Shettyさんによる投稿です。

ディープラーニングと画像レビューによりトレーニングセットにラベルを付与
非常に正確な深層学習モデルをトレーニングするために必要な数十万枚の画像から構成される巨大なデータセットの場合、画像にラベルを手で付ける事は現実的ではありません。

そのため、別に自然言語処理()を行うテキストベースのディープラーニングモデルを開発して、各X線に関連付けられた匿名化された放射線レポートを使用して画像に対するラベルを抽出しました。このNLPモデルは、コンピュータービジョンモデルのトレーニングに使用されるApollo Hospitalsデータセットから560,000以上の画像のラベルを抽出するために使用されました。

NLPモデルが自動抽出したラベルには不正確な部分もあるので、それらのノイズを減らす必要があります。ノイズを減らす検証用に、ChestX-ray14画像にそれなりの数の正確なラベルを付与するため、2つのデータセット全体で約37,000枚の画像に対して放射線科医による視覚的レビューを実施しました。

これらは、NLPベースのラベルとは別のものであり、このような大規模で多様なトレーニング画像セット全体でラベルの品質を高度に保つために役立ちました。

改善された参照標準ラベル(Reference Standard Labels)の作成と共有
モデル評価用の高品質な参照標準ラベルを生成するために、パネルベースの裁決プロセスを利用しました。これにより、3人の放射線科医が全てのテストセット画像に対して最終的な見直し及びレビューを実施し、議論を通じて意見の相違を解決しました。

これにより、当初は1人の放射線科医によってのみ検出された難しい所見を適切に識別して文書化することができました。個々の放射線科医の人格または年功序列に基づいて意見が偏るリスクを軽減するために、議論はオンラインで行われ裁決も匿名で行われました。

利用可能な裁定ラベルが存在しない事が私達の研究に対する重要な最初の障壁であったため、2,412のトレーニング/検証セット画像と1,962テストセット画像を含む、公開されているChestX-ray14データセットのすべての裁定ラベルをcloud.google.comで研究コミュニティと共有します。(合計で4,374枚の画像)。これらのラベルが将来の機械学習の取り組みを促進し、胸部X線解釈のための機械学習モデル同士を同じ条件で比較する事が可能になる事を願っています。

今後の研究
今回の研究には、いくつかの貢献があります。
(1)公開されている画像データセットに裁定ラベルを付与して公開
(2)NLPベースのディープラーニングモデルを使用して、トレーニングデータの正確なラベル付けをスケールアップする手法
(3)専門家が判断した参照標準ラベル付きの多様な画像セットを使用した評価
そして最終的に
(4)胸部X線で臨床的に重要な所見を行う深層学習モデルで放射線科医同等レベルのパフォーマンスの達成

しかしながら、モデルのパフォーマンスに関して掘り下げれば、平均して専門家と同等レベルの精度を達成した事実は話の一面にすぎません。

特定の所見に関する深層学習モデルの全体的な精度は、放射線科医の診断精度とほぼ一貫して類似していましたが、両方のパフォーマンスはデータセットによって異なりました。

例えば、放射線科医の気胸(pneumothorax)を検知する割合は、ChestX-ray14画像では約79%でしたが、同じ放射線科医が他のデータセットを同作業を行った結果では52%であり、後者がより困難なケースであった事を示唆しています。

これは、
・複数の多様なデータセット(いずれは患者全体)
・モデルを使用する可能性がある様々な臨床設定
で、ディープラーニングツールを検証することの重要性を強調しています。

データセット間でパフォーマンスが異なるという事実は、研究結果の比較を可能にするために、正確な参照標準を持つ標準化された評価画像セットが必要になる事を強調しています。

例えば、「異なるデータセット」を使用して「同じ診断結果」を示した2つの「異なるモデル」を評価する際、患者の病状、モデルのエラーモード、放射線技師の腕前などの追加情報の詳細を知らなくては、パフォーマンスの比較は最小限の価値しかありません。

最後に、モデルは放射線科医が一貫して見逃した病巣をしばしば特定する事があり、また、その逆にモデルが見逃した病巣を放射線科医が発見する事もありました。そのため、ディープラーニングシステムと人間の専門家の両方が持つ個々の「スキル」を組み合わせる戦略は、医療画像解釈におけるAIアプリケーションの可能性を実現するために最も有望となる可能性があります。

謝辞
Googleでのこのプロジェクトへの主要な貢献者には、Sid Mittal, Gavin Duggan, Anna Majkowska, Scott McKinney, Andrew Sellergren, David Steiner, Krish Eswaran, Po-Hsuan Cameron Chen, Yun Liu, Shravya Shetty, そして Daniel Tseが含まれます。

放射線技師の協力者であるJoshua Reicher, Alexander Ding, そして Sreenivasa Raju Kalidindiによっても、重要な貢献と意見が寄せられました。

著者は、Jonny Wong, Diego Ardila, Zvika Ben-Haim, Rory Sayres, Shahar Jamshy, Shabir Adeel, Mikhail Fomitchev, Akinori Mitani, Quang Duong, William Chen そして Sahar Kazemzadehを含むGoogle Health放射線チームの多くのメンバーに感謝します 。

また、プロジェクト全体を通して専門家として画像解釈に貢献する事で本研究を可能にしてくれた多くの放射線科医の皆さんにも心から感謝します。

3.胸部X線画像を用いた深層学習モデルの開発(2/2)関連リンク

1)ai.googleblog.com
Developing Deep Learning Models for Chest X-rays with Adjudicated Image Labels

2)pubs.rsna.org
Chest Radiograph Interpretation with Deep Learning Models: Assessment with Radiologist-adjudicated Reference Standards and Population-adjusted Evaluation

3)cloud.google.com
NIH Chest X-ray dataset