POM：色地図のように使える匂いの地図を作成(1/2)

１．POM：色地図のように使える匂いの地図を作成(1/2)まとめ

・匂いは色に似ているが色より多様であり感覚に頼って観測するため分類が困難
・色における色地図のように匂いをデジタル化して匂い地図が出来ないか考えた
・グラフニューラルネットワークを使って主要な匂いを地図化する事に成功

２．POMとは？

以下、ai.googleblog.comより「Digitizing Smell: Using Molecular Maps to Understand Odor」の意訳です。元記事は2022年9月6日、Richard C. GerkinさんとAlexander B. Wiltschkoさんによる投稿です。

アイキャッチ画像はstable diffusionで匂いの研究をするトトロ

匂いを測定しようとしたことがあるかい？
その類似性と差分を測定できるようになるまでは、匂いの科学は成立しない。
もし、新たな科学を創り出そうという野心があるのなら匂いを測ってみることだ。
– アレクサンダー・グラハム・ベル 1914年

どうやって匂いを測定する事ができるでしょうか？

匂いは、分子によって作り出されます。分子は空気中を漂い、私たちの鼻に入り、感覚受容体に結合する事で匂いとなります。

何十億という分子が匂いを発生させる可能性があるので、どの分子がどの匂いを発生させるかをカタログ化したり、予測したりすることは困難です。

この問題を解決するのに役立つのが、感覚マップ(Sensory map)です。色地図(Color vision)は、小学校で色同士の関係を習う際に使われる色環図(Color wheel)から、映像制作の色補正に使われるより高度なものまで、最も身近なマップの例です。

このような地図は何世紀も前から存在していましたが、匂いに関する有用な地図は存在しませんでした。なぜなら、匂いは解明するのが難しい問題だからです。

分子は光子よりも様々に変化し、データを収集するためには嗅ぎ手と匂いの間に物理的な距離が必要であり(優れた匂いの「カメラ」と匂いの「モニター」がない)、人間の目は色に対して3つの感覚受容器しか持っていないが、人間の鼻は匂いに対して300以上持っているからです。

その結果、これまでの匂いマップ(odor maps)の作成は失敗に終わっています。

2019年、私達はグラフニューラルネットワーク(GNN:Graph Neural Network)モデルを開発し、異なる分子とそれらが喚起する匂いラベル(例えば「牛肉のような匂い」「フローラルな匂い」「ミントの匂い」など)を持つ確率の関係を学習させるため、数千のサンプルの探索を開始しました。

このモデルのembedding空間には、視覚刺激のRGB値が色を表すように、各分子がその匂いを表す固定長のベクトルとして表現されます。

左：座標を色相と彩度の値に直接変換できるカラーマップの一例(CIE 1931)
似たような色が近くにあり、特定の光の波長(およびその組み合わせ)がマップ上の位置で識別できます。
右：主要な匂いマップの匂いも同様です。個々の分子は点(グレー)に対応し、その点の位置は匂いの特徴を予測したものです。

本日は、モデルのembedding空間における各臭気分子のベクトル表現を、高次元空間における1つの点として識別する「主要な匂いマップ(POM:Principal Odor Map)」を紹介します。

POMは感覚マップの性質を持ち、第一に、知覚的に類似した匂いの組はPOMの近傍の2点に対応します。(例えるなら、色環図上で赤は緑より橙に近いです)。

第二に、POMは新しい匂いとそれを作り出す分子を予測・発見することを可能にします。一連の論文の中で、私たちはこのマップを使って、分子の匂いの特性を前向きに予測し、その特性を基礎生物学の観点から理解し、差し迫ったグローバルな健康問題に取り組むことができることを実証しています。以下に、POMの有望な応用例とそのテスト方法について説明します。

テスト1：嗅いだことのない分子でモデルの性能を確かめる

最初に、誰も嗅いだことがなく、モデル開発時に使用した分子とは全く異なる新しい分子の匂いを、基礎となるモデルが正しく予測できるかどうかを調べました。これは重要なテストです。多くのモデルは、これまで見てきたものと似たようなデータではうまく機能しますが、新しいケースでテストすると破綻してしまいます。

これを検証するために、私たちは新規分子の匂いに関する過去最大のデータセットを収集しました。Monell Centerのパートナーは、パネリストを訓練して、400の分子それぞれについて、55の異なるラベル(例えば、「ミント系」など)を使って匂いを評価させました。

このラベルは、冗長でもまばらでもなく、考えられる匂いの空間をカバーするように選択されました。当然ながら、同じ分子でも人によって異なる特徴を感じる事がわかりました。これが、感覚に関する研究が数十人、数百人のパネルを使う理由であり、嗅覚が難しい問題であることの証左でもあります。

私たちは、モデルが特定の人物に一致するかどうかではなく、パネラー全員の平均値である「合意(consensus)」にどれだけ近いかを調べました。その結果、モデルの予測は、平均的なパネリストよりも合意に近いことがわかりました。つまり、このモデルは、分子の構造から匂いを予測する能力が非常に高いことがわかったのです。

私達のGNNモデル(オレンジ)と比較対象手法とした化学情報学的ランダムフォレスト(RF:Random Forest)モデル(青)による予測と、訓練されたパネリストによる平均評価(緑)を比較した図。
対象とした分子は2,3-ジヒドロベンゾフラン-5-カルボキシアルデヒドです。各バーは1つの匂い文字ラベルに対応します(わかりやすくするため、55個のうち上位17個のみを表示)。私たちのモデルでは上位5つのうち4つを高い信頼度で識別できたのに対し、RFモデルでは上位5つのうち3つしか識別できず、低い信頼度でした。また、55個のラベルの全セットに対する相関(R)も、私達のモデルの方が高いです。