グラフニューラルネットワークのわかりやすい紹介(2/3)

AI

1.グラフニューラルネットワークのわかりやすい紹介(2/3)まとめ

・グラフニューラルネットワークは2005年に発表されたが関連する概念はそれ以前からあった
・過去数年間、GNNはSMS分析や計算化学分野、特に創薬分野に熱心に使われている
・GNNは優れた薬剤候補となる小分子など分子に関するニューラル推論に特に適している

2.グラフニューラルネットワークの応用

以下、www.kdnuggets.comより「A Friendly Introduction to Graph Neural Networks」の意訳です。元記事の投稿は2020年11月、Kevin Vuさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by NASA on Unsplash

 

Nodeabcd
a0100
b1011
c0101
d0110

GNNの無向性
上の隣接行列は、対応するグラフの無向性を反映しています。ノードaとノードbの間の接続は、ノードbとノードaの間の接続と同じタイプの接続であり、これは、行列の対角線に関する対称性が反映されています。

また、ノードの自己接続を隣接行列に反映することは珍しくありません。同じサイズの単位行列を追加して、すべての対角要素で隣接行列に1の値を与えることで行列を簡単に更新できます。

直感的な理解のために、情報がグラフ全体にどのように伝播するかを視覚化してみましょう。この場合、ノードの状態を更新するステップ2はありません。(または更新ステップを「入力値と全く同じ数値を返す恒等関数」と見なすことができます)ノードの状態はスカラーで表されます。


グラフ内の状態伝播またはメッセージパッシング
それぞれの近隣集約ステップ後に恒等関数が更新されます。グラフは、状態値10.0のdを除いて、すべてのノードがスカラー状態値0.0から始まります。近隣集約を通じて、他のノードは、グラフ内の各ノードの位置に応じて、dの初期状態の影響を徐々に受けます。最終的にグラフは平衡に達し、各ノードはスカラー状態値2.5に近づきます。

グラフ内のスカラー状態値が伝播していくこの単純な例を見ると、グラフの構造が情報フローにどのように影響するか、そしてこれがモデルの最終出力にどのように影響するかを直感的に理解できます。近くのノードが遠くのノードよりも相互に大きな影響を及ぼし合う事、まばらな接続を通過するにつれて影響が低下していく事は理にかなっています。

これは隣接行列にとって何を意味するのでしょうか?前述の隣接行列に戻ります。これは、実際に隣接ノードの状態を集約する特に簡単な方法です。

私達はノード状態値の配列に隣接行列を単純に行列乗算して全ての隣接行列の値を合計するか、最初に行列の各列をその列の合計で除算して隣接ノード状態の平均を取得する事ができます。これは、近隣ノード集約を定義および実装するための簡単で計算速度の速い方法です。

別の戦略は、各タイプのエッジをフィードフォワードニューラルネットワークとして定義し、そのタイプのエッジの全実体と重みを共有することです。フィードフォワードネットワークは、平均化する前に各隣接ノードの状態ベクトルに適用されます。

グラフアテンションネットワークでは、attentionを適用してから合計します。最後に、実際のGNNでは、ノードの自己および隣接ノードからの状態データを集約した後、ノードの状態が更新されます。更新ルールは任意のタイプのニューラルネットワークにすることができますが、ゲート付き回帰ユニット(GRU:gated recurrent unit)のような回帰モデルを使用するのが一般的です。

有用な推論を行うためにグラフニューラルネットワークを活用
グラフニューラルネットワークの適用に適した現実的な(ただし単純化された)シナリオを取り上げて、この構造的な情報が有用な推論にどのように寄与するかを見てみましょう。

アミノ酸残基のどの原子が親水性(hydrophilic、水と混ざる)であるかを予測したいとします。例えば、油は疎水性(hydrophobic)の原子を持ち親水性とは対照的です。

これは、タンパク質がどのように折りたたまれるかを決定するための重要な情報であり、分子生物学における困難で根本的な問題です。

例として、親水性と疎水性の両方の特性を持つアミノ酸であるアルギニンを調べます。分子をグラフとして作成した後:


両親媒性アミノ酸であるアルギニンのグラフ表現

近隣集約と状態更新を実行して、各ノードの親水性を予測できます。

生理学的pHでは、アルギニンの主鎖とアミノ酸側鎖のアミノ基が化学反応(プロトン化)を起こします。一方、主鎖を側鎖の末端に接続する長い炭化水素鎖は非常に疎水性であるため、アルギニンは水を好む特性と撥水性の両方の特性を備えています。

この二重の性質に影響を与えるアルギニン側鎖の興味深い側面は、親水性が側鎖の3つの窒素含有アミノ残基全てに分布していることです。中心炭素の周りに配置される3つの窒素をグアニジノ基と言います。各ノードを個別に確認してこの分散している親水性を捕捉することを想像するのは難しいですが、グラフの構造情報を組み込む事で学習できる事はまさにそのタイプの洞察です。

グラフニューラルネットワークの応用の紹介
グラフニューラルネットワーク(GNN)は2005年に発表されましたが、関連する概念はそれ以前からあり、最近のGNNは独自のものになり始めています。

過去数年間で、GNNは、ソーシャルネットワーク分析や計算化学分野、特に創薬分野に熱心に採用されています。そのため、グラフを使って簡単に定式化できるタイプの問題に遭遇した場合に備えて、有望なモデルのスタイルに慣れることは悪い時期ではありません。

GNNの最も初期のアプリケーションの1つは、Web検索時のページランキング付けでしたが、それ以来、長い道のりを歩んできました。もう1つの初期のアプリケーションである自然言語処理と文構造の解析は、2010年に文章要約のベンチマークで最先端の結果を達成しました。それ以来、GNNは、トラフィック予測から量子化学まであらゆる事に使用されてきました。

材料科学は最近、GNNを適用するための魅力的な分野です。Deepmindは、物理学でかなりの論争の的となっているガラス転移(訳注:glass transition、温度が上昇すると硬いガラスがゴム状に徐々に変化する特性)に光を当てるためにGNNを使用して今年初めに結果を発表しました。

これは、GNNを使用して材料特性を研究するより大きなトレンドの一部です。関連する応用領域であり、潜在的な影響の点でおそらく最もエキサイティングなのは、化学用のグラフニューラルネットワークです。

GNNは、優れた薬剤候補となる小分子など、分子に関するニューラル推論に特に適しています。創薬のために機械学習に取り組んだり理解を深めたりすることに興味がある場合は、実際にはGNNは必須のスキルです。

3.グラフニューラルネットワークのわかりやすい紹介(2/3)関連リンク

1)www.kdnuggets.com
A Friendly Introduction to Graph Neural Networks

2)blog.exxactcorp.com
5 Types of LSTM Recurrent Neural Networks and What to Do With Them

コメント

タイトルとURLをコピーしました