ヘルスケアデータを人工知能で使いやすくする試み

１．ヘルスケアデータを人工知能で使いやすくする試みまとめ

・アメリカでは８割以上の病院で電子カルテの導入が完了している
・しかし、書式が異なる等の理由のため人工知能で扱うのが難しい
・Googleは新しくオープンな仕様を公開する事で解決を考えている

２．FHIRとは？

アメリカでは従来、紙に記録していた医療データをパソコンに取り込む試みが２００９年から続けられており、８割を超える病院で電子カルテ（electronic health records）の導入が完了している。しかし、解決すべき問題はまだ残っている。

１）共通な書式が存在しない。
会社が違うと入力書式が異なるケースがある

２）同じ会社のデータであっても共通化されていない場合がある
同じ病気に違うコードが割り当てられているケースがある

３）使いたいデータが沢山の場所に分散してしまっている場合がある
外来診察用データ、実験結果データ、バイタルサインデータ（脈拍・体温・呼吸など）

FHIR(Fast Healthcare Interoperability Resources)と言う事実上の標準となっている書式を使うと上記の問題はかなり解決できる。しかし、巨大なスケールでの機械学習を可能にするためには、
・効率的にデータをディスクに保存する手段
・様々なプログラム言語用の実装
など数点の改良が必要になった。

具体的にはprotocol bufferという、Googleが以前から推奨している仕様でFHIRを実装した。protocol bufferはXML（広く使われているデータを表現するための仕様）より、データサイズを小さく出来、処理速度も早く出来る。

protocol bufferはGoogle Cloud BigQueryなどのGoogleのクラウドサービスと親和性がある。また、まだTensorFlowの学習モデルはサポートしていないが将来的には視野に入れている。

データ記述仕様を自分で作成するのは大変面倒なので、Googleのような大企業が策定した仕様をオープンにしてくれるのはありがたい事ではあります。しかし、仕様を決める際に自社サービスに有利な仕様にも出来てしまうので、勝者独り占め傾向が益々強まる懸念も感じてしまいますね。