ディープラーニングを使った網膜眼底画像からの屈折異常予測(3/3)

１．ディープラーニングを使った網膜眼底画像からの屈折異常予測(3/3)まとめ

・網膜画像から屈折異常などを発見するためにディープラーニングが役に立つかを評価
・非常に高い精度で屈折異常を発見できる事と窩領域を人工知能が重視した事がわかった
・結論としてディープラーニングは医療用画像から新規予測を行うために活用できる

２．人工知能による網膜眼底画像診断実験の結果と考察

以下、iovs.arvojournals.orgより「Deep Learning for Predicting Refractive Error From Retinal Fundus Images」の意訳、三部作です。第一部はこちら
 第二部はこちら

英国BiobankおよびAREDSコホート研究の基本特性を表1に要約します。英国Biobankデータセットの参加者は、一度だけ画像化されました。 AREDSデータセットの被験者は、試験の過程で複数回画像化されています。AREDS試験の被験者は、英国Biobank（平均年齢：AREDSでは73.8歳、英国Biobankでは56.8歳）より平均して高齢でした。遠視は、AREDSデータセットでは英国Biobankより多く見られました。性別および民族性の分布は2つの群で同様です。

表2は、英国BiobankおよびAREDSの臨床検証セットにおけるモデルの性能をまとめたものです。モデルは、屈折誤差のSEを予測するために、英国BiobankおよびAREDSデータセットの両方で共同して訓練されました。英国BiobankとAREDSの両方のデータセットでSEが計測できましたが、個々の円柱成分と球成分は英国Biobankデータセットでのみ入手可能でした。

UK Biobank臨床検査データのモデルのMAEは0.56ジオプトリ（D）（95％CI：0.55-0.56）、AREDS臨床検証データセット（表2参照）で0.91D（95％CI：0.89-0.93）。両方のデータセットの予測値と実際の値の分布を図2に示します。

モデルの予測値は実際の値の1D以内で、英国Biobank臨床検査セット使用時は86％、ベースライン精度では50％でした。 AREDSについては、臨床検査セット使用時は1 D65%で、ベースライン精度では45％でした。モデルとベースラインの差は偶然ではなく有意である事も確かめられました。

アルゴリズムのMAEおよび決定係数（R2）対SE予測のベースライン

2つの臨床検証セットでSEを予測する際のモデルのパフォーマンス。（A）予測誤差ヒストグラム（予測 – 実際）英国バイオバンクデータセット（青）およびAREDSデータセット（赤）。（B）検証セット内の各インスタンスの予測値と実際値の散布図。黒い対角線は完全な予測を示し、ここでy = xです。

我々はさらに、AREDSデータセットでは利用できなかったため、英国Biobankデータセットを使用して、SE、球形力、円柱力の成分を予測する別々のモデルを訓練しました。

網膜眼底像から球面成分を予測するために訓練されたモデルは、MAEが0.63D（95％CI：0.63,0.64）であり、R2が0.88（95％CI：0.88,0.89）であり、非常に正確でした。

これと比較して、円筒力を予測するために訓練されたモデルは、MAEが0.43（95％CI：0.42,0.43）、R 2が0.05（95％CI：0.04,0.05）でした。

屈折異常の予測にとって最も重要な眼底上の領域を視覚化するための注意マップ(Attention Maps)が生成されました。屈折異常の重症度（近視、遠視）の異なるカテゴリーにおける注意マップの代表的な例を図3に示します。すべての画像について、黄斑は強調された顕著な特徴と見なされました。

加えて、網膜血管や網膜色素の亀裂もまた強調されました。ヒートマップには屈折率エラーの重症度の違いによる違いは明白にはありませんでした。我々は、屈折誤差の異なる1000画像について注意マップを平均化し、併合し、観察できたこれらの特徴が多くの画像で共通である事も見出しました。

Attention のヒートマップが画像の中心ではなく中心窩を確実に捉えるように、我々は、中心窩上の画像を自動的に整列させ、同じ結果を得ました。モデルが予測の際に中心窩を重視している事がわかったため、眼疾患が中心窩に影響を及ぼし、それが更に予測の正確さに及ぼす可能性についても調査をしました。英国Biobankのデータセットは主に健康な目で構成されているため、この分析には使用できませんでした。

AREDSデータセットを用いて、被験者が白内障手術および/または加齢黄斑変性(AMD)を有するか否かに基づいて被験者集団を分類しました。私たちは、白内障手術および/またはAMDを分析対象から除外した場合、モデルの精度を小さくはありますが重要な改善ができる事を見出しました。

英国Biobank（上の2行）およびAREDS（下の2行）から左は近視眼（SEは-6.0より悪い）、真ん中が正常（SEは-1.0と1.0との間のSE）、および右が遠視（SEは5.0より悪い）。診断されたSEは、眼底画像の右下に印刷されています。右側のスケールバーは、Attention のピクセル値を示します。値は0と1の間で全て値の合計が1に等しくなるように調整されています。

考察
この研究では、ディープラーニングが網膜眼底画像からの屈折異常を予測できる事を示しました。従来は網膜眼底画像から予測可能であると考えられていなかった事であり、驚くべき結果です。

屈折異常を予測する特徴を強調する個々のおよび平均のAttentionマップは、人工知能は全ての屈折異常を中心窩の状態を重視して予測している事を示しています。Attentionマップは、予測時に重視した領域については示す事ができますが、因果関係までは説明できません。これは、既存のAttention技法の一般的な制限です。

さらに、我々は多数のAttentionマップを平均して集計しました。黄斑等の予測可能な解剖学的特徴は、画像によって画像内の位置が異なる可能性があるので、これらの特徴は、平均アテンションマップで平均化されている可能性があります。しかし、Attentionマップは、屈折誤差の病態生理学をさらに研究するために、偏見なしに仮説を生成する方法となり得ます。

例えば、Attentionマップに示されている中心窩に対する一貫した注目は、さらなる近視研究の道筋になる可能性があります。眼底画像は一般に中心窩に集中していることを考えると、おそらくこの結果は中心窩と他の網膜内の特徴との空間的関係に関連するものかもしれません。しかしながら、中心窩の外観そのものが屈折異常についての情報を保持することも可能です。

病理学的近視において、眼底は黄斑を伴う特徴的な臨床的徴候を示すことがあります。しかし、病理学的近視以外にも、眼底カメラを使用して撮影された中心窩の構造と屈折異常または軸方向長さとの関係を探る先行文献は我々の知る限り存在しません。

OCTを用いたより高い分解能を有する以前の研究では、網膜の厚さまたは屈折矯正誤差のある中心窩の輪郭の解剖学的な相違の証拠がいくつか示されています。近視眼では中心窩の光受容体の間隔が広がっている事を示す証拠がありますが、これは網膜の眼底画像だけでは解決されないでしょう。

1つの仮説は、眼底カメラを使用して画像化したとき、中心窩の反射率または焦点は、屈折誤差率によって変動すると言う事です。例えば、検眼鏡を用いて視覚化すると、黄斑病の存在または年齢の増加とともに、中心窩の光反射はより薄くなり、目立たなくなります。しかしながら、この反射の「明るさ」と屈折異常との関係は研究されていません。

別の仮説は、「中心窩の色」や「色調異常時の黄斑色素」と屈折異常の間に何らかの相関関係があることです。しかし、Czepitaとその共著者は色が症例に関係しない事を過去に論文で発表しています。色素の濃度は、通常、物理学的手法を用いて得られますが、青色および緑色の照明を用いて撮影された眼底写真は、濃度を評価するのに有望であることが示されています。

Attentionマップはまた、中心窩領域の外の特徴があまり予測に寄与していないことを示唆しています。(視神経乳頭（ONH）からの拡散信号や視神経から眼窩を横断する網膜側頭血管の造影を含みます)

視神経乳頭の大きさと屈折異常との関連の程度は、研究によって異なる所見があり、未解決です。いくつかの研究では、近視により屈折異常が増加するにつれて、視神経乳頭のサイズがわずかに、しかし有意に増加する事が報告されています。

一方、中国の人口ベースの研究では、視神経乳頭の大きさは-8 から+4 Dの範囲内で屈折異常とは無関係であることが分かっています。Varmaらは、屈折異常と視神経乳頭の大きさとの間に関連がないことを見出しています。

サイズ以外にも、視神経乳頭の外観は屈折異常によって変化し、軸性近視の眼は傾斜した視神経乳頭を示すことがあります。近視の屈折異常はまた、狭い網膜細動脈および小静脈および分岐の増加、ならびに網膜血管フラクタル次元の減少に関連しています。

さらに、Attentionマップは、遠視および近視の画像で非常によく似ており、ニューラルネットワークが屈折誤差のスペクトルを予測するために同じ領域を利用していることを示唆しています。網膜内の各特徴は個別に予測に寄与しますが、網膜内の特徴間の関係性も人工知能が予測する際に重視している事がありえます。

網膜内の解剖学的特徴の空間的関係については広範囲に研究されています。人工知能が最も重視した特徴は中心窩とONHであるため、これらの2つの点の間の空間的関係、ならびに他の解剖学的特徴との位置関係は考慮されるべきでしょう。

Baniasadiらは、ONHに関連するパラメータ、すなわちONHの傾きと回転、中心網膜血管幹の位置はSEと強い関連性を有する事を見出しました。ONHと血管の両方が平均化されたAttentionマップでもはっきりと強調されていますが、ONHおよび網膜血管の位置は人によって微妙に異なるため、Attentionが分散し拡散してしまっています。これらの領域へのAttentionの強さは、平均化されたAttentionマップにおいては断定する事が困難です。

さらに、近視眼と遠視眼の信号の差異は、すぐには分かりません。Attentionマップと、現実の眼球における予測領域間の空間的関係を分析することは、今後の検討の対象となるでしょう。

我々は、Biobankデータセット上の我々の共同モデルのMAEは、AREDSデータセットよりも低く、極端な屈折異常においてSE予測に大きな誤差がある可能性があることを見出しました。

これらは、様々な要因によるものかもしれません。第1に、英国Biobankの研究で眼底画像を撮影したカメラは、AREDSデータセットで使用されているZeissカメラの30度よりも多くの周辺情報をキャプチャした、より広範な45度カメラでした。

これにより、取得した画像に常に見えるわけではない視神経乳頭または網膜血管（UK Biobankモデルで重要であることが示されている）が得られます。

第2に、AREDSデータセットの画像数ははるかに少なく、トレーニングセットの数が少ないと、一般に臨床検証セットの汎用性とパフォーマンスが低下しますさらに、AREDSデータセットの多くの画像は、画像にノイズを付加する可能性がある何らかの形の黄斑病変を示し、より広い範囲にAttentionを分散しました。

予測屈折誤差における中心窩領域の重要性を考慮すると、AREDSデータセットでモデルの性能が低下した可能性があります。

第3に、屈折異常は、各データセット間で異なる2つの方法、すなわちAREDSにおける主観的屈折とUK Biobankデータセットの自己屈折によって決定されました。

画像の品質の違い、既存の眼の病変、小さなデータセットの組み合わせは、英国Biobankに比べてAREDSデータセットの予測力を低下させたと我々は考えています。しかし、これらの要因のそれぞれがモデルの精度に与える影響をテストし定量化するためには、今後の研究が必要となるでしょう。

このモデルは球面力を予測する際に高い精度を持ちますが、円柱力を予測するときは精度がありませんでした。これは、乱視が、角膜および/または水晶体のトーリック性の結果であり、それらは網膜眼底画像に保持される可能性の低い情報であるためと予想されています。

前述したように、屈折異常に関連する網膜の特徴は、異なる軸方向の長さに関連している可能性があります。したがって、SEの高い予測精度は、軸索屈折異常を予測する可能性が高いです。レンズ屈折異常に関連する球面収差は、網膜の解剖学的構造と特定の関係を有することは知られていません。

しかし、遠視へのシフト、すなわち年齢による水晶体の厚さの増加などのレンズ現象は、カメラの焦点設定に影響を及ぼし、結果として画像の拡大効果をもたらす可能性があります。

Wangらは、レンズの年齢による変化は42歳以上で関連が認められ、焦点と倍率の影響が年齢に依存することが示唆されています。我々は予測されたSEがAREDS群、特に遠視眼でわずかに過小評価されていることを見出しました。

このグループは、英国Biobankグループよりも有意に高齢（約20歳以上）であったため、老眼による遠視への移行を経験している可能性があります。

残念なことに、いずれのデータセットでも軸長データは利用できなかったため、球面屈折誤差と予測の関係についての仮説を調べる事はできませんでした。軸方向の長さを含むデータセットを用いた今後の研究は、この問題を解明するのに役立つでしょう。

将来の追加作業には、異なる民族、年齢、併存疾患など、より多様な集団のデータセットが含まれている必要があります。このモデルは、2つのデータセットの組み合わせで訓練され、検証されました。

追加の検証のために全く異なる設定で行われた第3のデータセットを有することがより望ましいです。さらに、英国Biobankのデータセットでは、眼科手術を受けていた患者は除外されています。追加作業には、これらの患者をデータに戻してモデルのパフォーマンスへの影響を確認することが含まれます。

PEEK44などのポータブル眼底カメラは、特に開発途上国では、目の病気のスクリーニングと診断に安価で一般的になりつつあります。さらなる妥当性確認を行うと、これらの豊富な眼底画像を使用して、屈折異常を有する個人を効率的にスクリーニングすることが可能になり得ます。しかし、この研究の所見は臨床試験の役割を変えることはまずないでしょう。

それにもかかわらず、この記事の手法および結果は、生物学的および眼科学的研究に対する新しいアプローチを表しています。高精度の自動分類アルゴリズムの開発は、大規模な遡及的なデータセットを伴う研究に役立つ可能性があります。

例えば、このアルゴリズムは、屈折異常か否かのラベル情報を有さない大きな眼底画像データセットを用いて近視の疫学的研究を行うために役立つ可能性があります。

この研究によって得られたAttentionマップの結果は、近視の生物学および病態生理のより深い理解を助けることができます。

最後に、この研究で使用されたプロセス、すなわち、最初に直接的に目的の結果または表現型を予測するためにディープラーニングを活用し、最も予測的な特徴を特定するためのAttention技法は、医学および生物学において広く科学研究に応用され、触媒的作用を及ぼす可能性があります。

謝辞
著者らは、Google ResearchのMark DePristo博士、Arunachalam Narayanaswamy博士、およびYun Liu博士に、技術的助言と原稿のレビューに感謝します。