ディープラーニングを使用して嗅覚を学習(2/2)

１．ディープラーニングを使用して嗅覚を学習(2/2)まとめ

・今回の研究で開発したGNNによる特徴表現は立体異性体を区別できないが臭気予測には支障がなかった
・GNNで学習した特徴表現を中間層から色彩におけるRGBのような「匂い埋め込み」を抽出する事ができた
・匂い埋め込みは匂いと関係ない一般的な化学情報を用いた特徴表現による分析結果と一致する部分があった

２．匂い埋め込み

以下、ai.googleblog.comより「Learning to Smell: Using Deep Learning to Predict the Olfactory Properties of Molecules」の意訳です。元記事の投稿は2019年10月24日、Alexander B Wiltschkoさんによる投稿です。

この特徴表現は、原子の空間的位置について何も知らないため、立体異性体、つまり同じ原子で作られていても構成が微妙に異なる分子を区別できません。例えば、(R)-カルボンと(S)-カルボンのように匂いがわずかに異なる分子を区別できないのですが、それにもかかわらず、立体異性体を区別しなくても、実際には臭気を非常によく予測できることがわかっています。(訳注：カルボンは香料として使われる有機化合物で、(R)-カルボンはスペアミント、(S)-カルボンがドイツ料理のザワークラウトに良く使われるキャラウェイの風味成分です）

GNNは、グラフ構造を直接エンコードしないランダムフォレストなどの従来手法と比較して、一貫して臭気予測のパフォーマンスを向上させる事を示しています。改善の度合いは、どの臭気を予測しようとするかに依存します。

AUROCスコアで比較した、従来の強力な手法とGNNのパフォーマンスの例。サンプルの匂い記述子はランダムに選択されています。1.0に近いほど良いことを意味します。ほとんどの場合、GNNは比較対象を大幅に上回っており、他の基準(AUPRC、リコール、精度など)でも同様のパフォーマンス向上が見られます。

学習したモデルを他のタスクに展開する
匂い記述子の予測に加えて、GNNは他の嗅覚を扱うタスクに適用できます。

たとえば、限られたデータのみを使用して、新しいまたは精製された匂い記述子を分類する場合を考えてみましょう。各分子について、学習した特徴表現をモデルの中間層から抽出します。これは、匂い記述子に最適化されており、これを「匂い埋め込み(odor embedding)」と呼びます。これは、色彩を表現するRGBやCMYKなどと同等な、匂いを表現する方式と考えることができます。

この「匂い埋め込み」が匂い関連の異なったタスクを予測するために役立つかどうかを確認するために、本来は「匂い埋め込み」の適用を考慮していなかった関連タスクの実験を設計しました。

そして、「匂い埋め込みの特徴表現」のパフォーマンスを、匂いに関する情報を持たない「分子の構造情報をエンコードする一般的な化学情報を用いた特徴表現」と比較しました。その結果、匂い埋め込みがいくつかの挑戦的な新しいタスクに一般化可能で、幾つかの最先端の研究にさえ一致することがわかりました。

embedding空間を二次元に表示したもの。いくつかの匂いサンプルが強調表示されています。左：それぞれの匂いがそれぞれの空間にクラスタリングされています。右：匂い記述子の階層的性質。影付きおよび輪郭付きの領域は、embeddingのカーネル密度推定を使用して計算されています。

将来の研究
機械学習の研究領域では、匂いは五感の中で最もとらえどころのないものです。私達は匂いに光を当てるため、更なる基礎研究を小さな部分から続ける事を楽しみにしています。将来の研究の可能性は非常に多く、安価で持続的に生産可能な新しい嗅覚分子の設計から、香りをデジタル化する事、あるいは将来的に嗅覚のない人にバラの香り(そして、残念ながら、腐ってしまった卵の匂いも)を感じれるようにする事など、全てに関わります。また、最終的に高品質でオープンなデータセットを作成および共有することにより、機械学習に関わる人々の注目を匂いの問題に集めたいと考えています。

謝辞
この初期の研究は、Google Brainの有能な研究者とエンジニアのチームによる作業とアドバイスの結果です。Benjamin Sanchez-Lengeling, Jennifer Wei, Brian Lee, Emily Reif, Carey Radebaugh, Max Bileschi, Yoni Halpern, そして D. Sculley。ASUのRichard Gerkin、及びトロント大学のAlán Aspuru-Guzikと共同研究ができたことを嬉しく思います。

もちろん私達の研究は膨大な量の先行研究に基づいており、特に神経科学、統計学、化学の多くの研究の中でも特に、Justin Gilmer, George Dahl、その他先達の皆さんによるGNNの基本的な方法論に関する研究から恩恵を受けています。また、Steven Kearnes、David Belanger、Joel Mainland、Emily Mayhewからの有益なコメントにも感謝しています。