COVID-19疫学のための機械学習ベースのフレームワーク(1/2)

AI

1.COVID-19疫学のための機械学習ベースのフレームワーク(1/2)まとめ

・COVID-19は大量のリアルタイムデータ生成したので高度な機械学習で予測可能になった
・特定の政策がCOVID-19の症例にどのように影響するか予測できるフレームワークを発表
・コンパートメントモデルにより政策変更や病床増加がどう影響するかを予想できる

2.GoogleのCOVID-19感染予測の背景

以下、ai.googleblog.comより「An ML-Based Framework for COVID-19 Epidemiology」の意訳です。元記事は2021年10月13日、Joel ShorさんとSercan Arikさんによる投稿です。

GoogleのCOVID-19 感染予測はアメリカ版と日本版が公開されていますが、その発展形のお話です。

アイキャッチ画像のクレジットはPhoto by Dimitar Donovski on Unsplash

過去20か月間、COVID-19のパンデミックは日常生活に深刻な影響を及ぼし、需要と供給を計画している企業に物流上の課題を提示し、タイムリーな公衆衛生対応でコミュニティを支援するために活動する政府や組織に困難をもたらしました。

COVID-19の症例と死亡者数を予測してこれらの課題を解決するのに役立つ、十分に研究された疫学モデルがありますが、このパンデミックにより、前例のない量のリアルタイムの公開データが生成されたため、結果を改善するために、より高度な機械学習技術を使用できるようになりました。

npj Digital Medicineに受理された論文「A prospective evaluation of AI-augmented epidemiology to forecast COVID-19 in the USA and Japan」では、以前の研究を継続し、COVID-19の死亡と症例に対する特定の政策変更の影響をシミュレートするように設計されたフレームワークを提案しました。

学校の閉鎖や、米国の州、米国の郡、および日本県レベルでの非常事態宣言など、公開されているデータのみを使用しています。

2ヶ月間先を見通したリスク評価を実施したところ、COVID19 Forecast Hubにおいて、私達の米国モデルが他の33モデルと同程度かそれ以上のスコアとなりました。また、米国と日本の保護されたサブグループでのパフォーマンスの公平性分析も公開しました。COVID-19を支援する他のGoogleの取り組みと同様に、この作業に基づいた日次予測をウェブやBigQueryを通じて無料で公開しています。



米国と日本のモデルの将来予測
確認済み累積死亡数(緑色の線)は、各日の予測と一緒に表示されています。
各日次の予測には、4週間の予測間隔内での毎日の死亡数の予測が含まれます(色付きの点線で示され、黄色に変わっていく陰影は、予測期間の予測日から4週間までの日数を示します)。米国(上)と日本(下)の死亡予測が示されています。

モデル

感染症のモデルは、疫学者によって何十年にもわたって研究されてきました。区画モデル(Compartmental models)は、シンプルで解釈可能であり、さまざまな病期に効果的に適合できるため、最も一般的です。

区画モデルでは、個人は、疾患の状態(感受性、曝露、回復など)に基づいて、相互に排他的なグループまたは区画に分けられ、これらの区画間の変化率は、過去のデータに合うようにモデル化されます。母集団は、病状を表す区画に割り当てられ、病状の変化に応じて区画を移動します。

この作業では、Susceptible-Exposed-Infectious-Removed(SEIR)タイプの区画モデルに対するいくつかの拡張を提案します。たとえば、影響を受けやす人(susceptible)が曝露されると、影響を受けやす人の区画が減少し、曝露(exposed)したひとの区画が増加しますが、その割合は病気の蔓延特性に依存します。

確認された症例、入院、死亡など、COVID-19に関連する結果の観察データは、区画モデルのトレーニングに使用されます。


疫学における「コンパートメント(区画)」モデルの視覚的説明。人々はコンパートメント間を「流れ」ます。ポリシーの変更やICU病床の増加などの現実の出来事は、コンパートメント間の流れの速度を変化させます。

私たちのフレームワークは、いくつかの新しい技術革新を提案しています。

(1)動的に学習した遷移率
すべての場所と時間にわたる区画間の遷移に静的な割合を使用する代わりに、機械学習で学習した遷移率を使用します。これにより、GoogleのCOVID-19コミュニティモビリティレポート、ヘルスケアサプライ、人口統計学、計量経済学上の特徴などの有益なシグナルを使用して、利用可能な膨大な量のデータを活用できます。

(2)説明可能性
私たちのフレームワークは、意思決定者に説明可能性を提供し、その区画構造を介して病気の伝播傾向に関する洞察を提供し、コンパートメントの移行を推進するためにどの要因が最も重要であるかを示唆します。

(3)拡張された区画
入院、ICU、人工呼吸器、およびワクチンの区画を追加し、データの希薄性にもかかわらず効率的に学習をします。

(4)地域間での情報共有
個々の場所に合わせるのではなく、国のすべての場所(たとえば、3000を超える米国の郡)に対して、異なるダイナミクスと特性を備えた単一のモデルを持ち、場所間で情報を転移することの利点を示しています。

(5)Seq2seqモデリング
新しい部分的教師強制アプローチ(partial teacher forcing approach)を使用したsequence-to-sequenceモデルを使用します。これにより時間の経過につれてエラーが増幅されるのを最小限に抑える事が出来ます。

3.COVID-19疫学のための機械学習ベースのフレームワーク(1/2)関連リンク

1)ai.googleblog.com
An ML-Based Framework for COVID-19 Epidemiology

2)www.nature.com
A prospective evaluation of AI-augmented epidemiology to forecast COVID-19 in the USA and Japan

3)github.com
reichlab / covid19-forecast-hub

4)datastudio.google.com
COVID-19 感染予測 (日本版)

タイトルとURLをコピーしました