RMAB:誰に利用を促せば全体としてのサービス利用率が向上するか推定する試み(1/2)

１．RMAB:誰に利用を促せば全体としてのサービス利用率が向上するか推定する試み(1/2)まとめ

・スマートフォンで医療情報を届けるサービスは有用だが継続率が低下する
・利用者に電話をかける事は利用率向上に繋がるがサポート要員数は有限
・RMABアルゴリズムを用いて対象者を選択し継続率を30％向上する事に成功

２．RMABとは？

以下、ai.googleblog.comより「Using ML to Boost Engagement with a Maternal and Child Health Program in India」の意訳です。

元記事は2022年8月24日、Aparna TanejaさんとMilind Tambeさんによる投稿です。

アイキャッチ画像はstable diffusionで特に本文の内容と関係はありません。

携帯電話の普及により、非営利団体は重要な健康情報を受益者にタイムリーに届けることができるようになりました。スマートフォンの高度なアプリケーションでは、リッチなマルチメディアコンテンツや、受益者と医療コーチの双方向コミュニケーションが可能ですが、よりシンプルなテキストや音声メッセージサービスは、大規模なコミュニティ、特に情報やスマートフォンへのアクセスが制限されている医療サービスが十分に受けられないコミュニティへの情報発信に有効な手段となっています。

ARMMANは、インドを拠点とする非営利団体で、十分なサービスを受けていない地域の母子の健康状態を改善することを使命として、このような活動を行っています。

ARMMANの概要

ARMMANが提供しているサービスの1つであるmMitraは、妊娠中から出産後1年までの妊産婦に、予防医療に関する情報を自動音声メッセージでタイムリーに提供するプログラムです。このメッセージは、受益者の妊娠期間に合わせて調整されます。これらのメッセージを定期的に聞くことで、一年の終わりまでに出生時体重が3倍になった乳児が17%増加し、鉄剤を飲むことの重要性を知っている女性が36%増加するなど、行動や健康状態の改善と高い相関関係があることが示されています。

しかし、ARMMANが直面した重要な課題は、約40%の女性が徐々にプログラムに参加しなくなったことです。これを軽減するために、メッセージを聞くことの利点を説明するために女性にサービスコールとして電話をかける事ができますが、サポートスタッフの数が限られているため、プログラムへの参加率が低いリスナー全員に電話をかけることは不可能であり、電話を受ける人の優先順位を効果的に設定することの重要性が浮き彫りになりました。

AAAI 2022で紹介された論文「Field Study in Deploying Restless Multi-Armed Bandits: Assisting Non-Profits in Improving Maternal and Child Health」では、私達は、NGOからの履歴データを使用して、どの受益者がサービスコールから最も恩恵を受けるかを予測するMLベースの解決策について説明します。

このようなシステムの大規模な実世界展開に伴う課題を取り上げ、23,000人以上の参加者を含む実調査でこのモデルを展開することの有用性を示しています。このモデルでは、現在の標準的なケア患者群と比較して、継続利用者数が30%増加することが示されました。

背景

この資源最適化問題は、医療を含む様々な領域でこのような問題への応用が研究されている「落ち着きがない多腕バンディット(RMABs:Restless Multi-armed Bandits)」アルゴリズムを用いてモデル化します。

RMABはn本の腕からなり、各腕(受益者を表す)は2状態のマルコフ決定過程(MDP:Markov Decision Process)に関連しています。各MDPは2状態(良い状態か悪い状態、良い状態は前週のリスナー数が多いことに対応)、2アクション(受益者がサービスコールを受けるために選ばれたかどうかに対応)問題としてモデル化されます。

さらに、各MDPは、次の状態が前の状態とその時間ステップでその腕に行われた行動のみに依存するというマルコフ条件の下で、関連する報酬関数(すなわち、与えられた状態と行動で蓄積された報酬)および与えられた行動の下である状態から次の状態に移行する確率を示す遷移関数を有します。「落ち着きがない(Restless)」という言葉は、すべての腕が行動に関係なく状態を変化させることができることを示します。

受益者の状態は、良い状態(プログラムへの関与が高い)から悪い状態(プログラムへの関与が低い)へと遷移することがあり、遷移行列に示された受動的および能動的な遷移確率の例で示されます。

モデルの開発

最後に、RMAB問題は、報酬(プログラムへの関与)を最大化するために、任意の時間ステップで、n個の腕が与えられたとき、どのk個の腕に働きかける(すなわち、サービスコールをかける対象に選択する)べきかをモデル化したものです。

したがって、ある状態から別の状態に移行する際に、サービスコールを受ける確率(能動的確率)または受けない確率(受動的確率)は、上記の最適化を解くために重要な基礎となるモデルパラメータとなります。これらのパラメータを推定するために、私達はNGOが登録時に収集した受益者の人口統計データ(年齢、収入、教育、子供の数など)と、過去のサービスコール聴取者データを、NGOのデータプライバシー基準(詳細は後述)に沿って使用しています。

しかし、サービスコールの量が限られているため、サービスコールの受信に対応するデータが制限されます。これを軽減するために、クラスタリング技術を使用して、クラスタ内の受益者の集団観測から学習し、個々の受益者ごとの限られたサンプルの課題を克服することを可能にしました。

具体的には、サービスコール聴取者に関してクラスタリングを行い、人口統計学的特徴を元に各クラスタへの割当を計算しています。