タンパク質の結晶を人工知能に見つけさせ新薬の開発を助ける試み

１．タンパク質の結晶を人工知能に見つけさせ新薬の開発を助ける試みまとめ

・タンパク質の分子は特定の構造の分子のみに反応する面白い性質を持っている
・この性質を利用すると患部に直接作用する新薬の開発につなげる事ができる
・タンパク質の結晶を見つけると分子の構造が特定できるが結晶は現在人力で探している

２．タンパク質の結晶とは？

あなたが非常に珍しいプロテインクリスタル(タンパク質の結晶)を見逃す度に、あなたは生物学上の大発見を見逃しているかもしれません。
– Patrick Charbonneau, Duke University Dept. of Chemistry and Lead Researcher

注）プロテイン、つまりタンパク質は、鳥のササミや卵の白身などに多く含まれ、人間の筋肉を作る栄養素です。分子レベルで考えると人間の体内で作られるタンパク質は10万種類以上といわれています。それぞれのタンパク質の分子は、特定の構造の分子にしか反応しない興味深い性質を持っています。

この性質を利用すれば、もし、病気に関連するタンパク質の構造と機能が分かれば、そのタンパク質に直接働きかける物質を予測することが可能になり、病気の原因に直接作用する新薬の開発に繋がると期待されているのです。

タンパク質の構造は、タンパク質を結晶化すると容易に調べる事ができるのですが、タンパク質は中々結晶化しないため、大量の試行錯誤と人の目によるチェックが必要なのが現状です。

タンパク質結晶化は、複雑な生体分子の構造を発見するために行われる生物医学研究の重要な手法です。タンパク質が結晶化したものを利用すると、タンパク質の構造が特定でき、タンパク質の構造はその機能を決定するので、科学者がその機能に直接働きかける新薬を開発するのに役立つのです。

しかし、タンパク質の結晶化はまれであり、見つけにくいです。多くの場合、各タンパク質について何百回もの実験が行われます。実験準備と結果の画像化はほとんど自動化されていますが、個々のタンパク質結晶の発見は、目視検査に頼る部分が大きく、人為的ミスを起こしやすいです。

重要なことは、結晶化されたタンパク質を見逃すと、医学を発展させるために重要な生物医学的発見の機会が失われる可能性がある事です。

我々はMARCO(MAchine Recognition of Crystallization Outcomess)計画の研究者と共同で、論文、「Classification of crystallization outcomes using deep convolutional neural networks」を発表しました。ここでは、新たな畳み込みネットワークモデルを開発し、タンパク質の結晶の94%以上の精度でタンパク質の結晶を自動識別する事ができました。この分野におけるさらなる研究を推進するために、データを自由にアクセスできるようにし、TensorFlowリサーチモデルリポジトリの一部としてモデルをオープンソース化し、 Cloud ML Engineで研究者が容易に利用できるようにしました。

MARCOイニシアチブは、いくつかの製薬会社と学術研究センターとの共同プロジェクトであり、
収集された結晶画像を集め、より良い画像解析ツールを開発するためにコミュニティに提供できるようにしました。イニシアチブのメンバーが50万件のラベル付き画像からタンパク質の結晶化画像を認識する挑戦をGoogleに連絡したとき、私たちはその挑戦を受け入れ、最新のディープラーニングを用いて解決を試みる事にしました。

画像取得の際に使ったカメラや画像化の際に使ったソフトが多岐にわたったため、タンパク質の結晶を視認する単一の手法を作成するのは困難でした。大きな画像の一部分に小さい結晶が写っている画像もあれば、結晶部分だけを大きく映した画像もあったのです。

幸運なことに、十分なトレーニングデータがあれば、最新の畳み込みニューラルネットワークは視覚的に外観が変化していても十分に対応する事ができます。

我々は、基本的なInception V3モデルを変更し、より大きな画像を処理できるように改良しつつ、従来通り迅速に学習する能力も保持させる事ができました。この人工知能は、結晶自動検出システムの中に組み込まれ、実用レベルの精度を実現しました。

今回のプロジェクトは、個々の機関では集める事が難しい大量で多様なデータを必要とする難しい問題を、多くの機関が共同して解決しました。多機関が共同して行う共同作業の有効性を示す素晴らしい例です。

私たちは、他の研究者がこの作業の結果を活用し、学習した内容を共有するよう呼びかけています。この研究は著者による個人的な20％のプロジェクトとして行われました。この作業の詳細については、ここの論文を参照し、最新のDuke Research Blogの記事を読んでください。

３．タンパク質の結晶を人工知能に見つけさせ新薬の開発を助ける試み感想

サンプルが画像が幾ら数が多いとは言え、解像度もレベルもあまりにバラバラなのに良く認識できたなと感心しました。

それとこれがGoogle AIの正式プロジェクトではなく、勤務時間の20%を自分の好きな事にやって良いと言う、例のGoogle20%ルールの枠内で実施されたプロジェクトである事にも驚きます。

まぁ、実はGoogleの現在の主要製品のほとんどは20%ルールの枠内で試作品が作られてから発展したらしいのですけれども。「AI vs. 教科書が読めない子どもたち」の中で心に残った一節に「失敗したプロジェクトは語られる事がない」との一文があったのですが、成功例ばかり翻訳しているとあたかも簡単な事のように思えてきてしまいますが、実際はこれらの影には相当な失敗があり、成功例も影で相当な努力をしているのだろうな、と思います。