胸部X線画像を用いた深層学習モデルの開発(1/2)

１．胸部X線画像を用いた深層学習モデルの開発(1/2)まとめ

・胸部X線は多くの疾患の検出のための重要で利用しやすい臨床画像ツールだが解釈が難しい場合がある
・ディープラーニングを画像診断に適用したくとも正確な臨床ラベルがないとモデルの評価が困難
・標準化された臨床的に意味のあるデータセットと厳密で参照する事ができる基準が必要であった

２．胸部X線画像を人口知能で診断する試み

以下、ai.googleblog.comより「Developing Deep Learning Models for Chest X-rays with Adjudicated Image Labels」の意訳です。元記事は2019年12月3日、Dave SteinerさんとShravya Shettyさんによる投稿です。

毎年何百万ものX線による診断検査が実施されているため、胸部X線は多くの疾患の検出のための重要で利用しやすい臨床画像ツールです。しかし、それらの有用性は解釈の難しさによって制限されている可能性があります。複雑な三次元構造を持つ臓器を、病気の進行状況を示す二次元画像から迅速かつ徹底的に評価する事が必要です。

実際、初期の肺がんまたは気胸(肺の虚脱)は胸部X線検査で見逃される可能性があり、患者にとって深刻な事態をもたらす恐れもあります。

機械学習(ML)の進歩は、専門家が医療画像を解釈するのに役立つ新しいツールを作成するエキサイティングな機会を提供します。最近の取り組みでは、放射線科での肺がんの検出、病理学での前立腺がんの等級付け、糖尿病性網膜症の診断および皮膚科での鑑別診断の改善が期待されています。

特に胸部X線画像の場合、特定の分野の枠組みを超えて研究者が大規模な匿名化された公開画像セットを利用でき、X線画像解釈用の深層学習モデルを開発するためのいくつかの貴重な取り組みを促進しました。

ただし、ディープラーニングに必要な非常に大きな画像セットに対して正確な臨床ラベルを付与することは困難です。ほとんどの取り組みでは、ルールベースの自然言語処理(NLP)を放射線レポートに適用してラベルの候補を抽出するか、個々の読者による画像レビューに依存しています。どちらも、矛盾またはエラーを引き起こす可能性があり、特にモデルの性能を評価する際に問題となります。

別の課題には、病状の範囲を十分に多様に含むデータセットを構築する事が含まれます。(つまり、病状が「重症なケース」と「軽傷なケース」の症例の両方が含まれる事を保証するなど)

最後に、一部の胸部X線画像には疾患固有の特徴的な患部が画像に映らず、患者の臨床情報に依存してその重要性を理解する必要があります。

そのため、臨床的に意味があり、一貫した定義を持つラベルを確立することは、入力として画像のみを使用する機械学習モデルを開発する上で難しい要素になる可能性があります。標準化された臨床的に意味のあるデータセットと厳密で参照する事ができる基準がなければ、MLを胸部X線の解釈にうまく適用することは困難です。

これらの問題に対処するために、最近、私たちはジャーナル「放射線学(Radiology)」に論文「Chest Radiograph Interpretation with Deep Learning Models: Assessment with Radiologist-adjudicated Reference Standards and Population-adjusted Evaluation」を発表しました。

この研究では、胸部X線に関して4つの臨床的に重要な所見を分類するための深層学習モデルを開発しました。4つの所見とは、気胸(pneumothorax)、結節(nodules)および腫瘤(masses)、骨折(fracture)、および胸部スペースの透過性(airspace opacities)の低下です。

これらの標的となる所見は、放射線科医および臨床医と相談の上で選択されました。「患者のケアにとって重要である事」と、「診断において胸部X線画像だけで重要な役割を担う事が出来、利用しやすい研究用画像がある事」の２つの条件に焦点を合わせています。

これらの所見結果を選択することで、識別されていない画像のみを使用してモデルを評価する事が可能になりました。追加の臨床データは不要です。

モデルは、各データセットからの何千もの画像を使用して評価されました。これらのラベルは、認定放射線科医達の間でパネルディカッションと裁決プロセスを経て決定された高品質なラベルです。(パネルベースのラベル)

放射線科医の診断精度をディープラーニングモデルの診断精度と比較するために、4人の別々の放射線科医が独立して画像をレビューする事も実施しました。(パネルベースのラベルを基準として参照としています)

4つの調査結果全てと両方のデータセットで、ディープラーニングモデルは放射線科医と同等レベルのパフォーマンスを持つ事を実証しました。後続の研究を促進するために、cloud.google.comでパネルベースのラベルを共有しています。

データの概要
今回の研究では、2つの匿名化されたデータセットから提供された600,000以上の画像を活用しました。最初のデータセットは、Apollo Hospitalsが共著者と共同で開発し、Apollo Hospitalsネットワークの複数の場所から数年にわたって取得された多様な胸部X線セットで構成されています。

2番目のデータセットは、国立衛生研究所(NIH)によってリリースされた公開されているChestX-ray14画像セットです。この2番目のデータセットは、多くの機械学習の取り組みの重要なリソースとして機能していますが、現在利用可能なラベルの精度と臨床的解釈の問題に起因する制限を持ちます。

ディープラーニングモデルと裁決パネルによって病巣が特定されたが、個々の放射線科医が見落とした左上葉の気胸を描いた胸部X線。左：元の画像。右：モデルが予測をする際に最も重視した領域をオレンジ色で強調表示した同じ画像