Shift-Robust GNN：データの偏りに堅牢なグラフニューラルネットワーク(1/3)

１．Shift-Robust GNN：データの偏りに堅牢なグラフニューラルネットワーク(1/3)まとめ

・GNNは学習サンプルが一様にランダムに選択されるIIDなサンプルである事を仮定している
・現実世界のデータは通常IIDではないため、偏った学習データがGNNでもよく問題になる
・Shift-Robust GNNsは偏ったラベル付けデータでGNNを利用するための解決策である

２．SR-GNNとは？

以下、ai.googleblog.comより「Robust Graph Neural Networks」の意訳です。元記事は2022年3月8日、Bryan PerozziさんとQi Zhuさんによる投稿です。

結構安直に選んだアイキャッチ画像のクレジットはPhoto by Johnny Briggs on Unsplash

グラフニューラルネットワーク(GNN:Graph Neural Networks)は、機械学習においてグラフ構造を持つデータを活用するための強力なツールです。グラフは、様々な種類の関係をモデル化できる柔軟なデータ構造であり、交通予測、噂や偽ニュースの検出、病気の蔓延のモデル化、分子の匂いの理由の理解など、多様な用途で利用されています。

グラフは、ウェブページ(左)、社会とのつながり(中央)、分子(右)など、さまざまな種類のデータ間の関係をモデル化することができます。

機械学習(ML:Machine Learning)の標準として、GNNは学習サンプルが一様にランダムに選択される(すなわち、独立(Independent)かつ同様(Identically)に分布(Distributed)している、「IID」なサンプルである)ことを仮定しています。

これは、研究分析のために特別に作成され、したがって、すべてのノードがすでにラベル付けされている、標準的な学術データセットで行うのは簡単です。しかし、現実世界の多くのシナリオでは、データはラベルなしで提供され、データのラベル付けは熟練した人間の評価者を含む負担の大きいプロセスであり、すべてのノードをラベル付けすることは困難です。

また、ラベリングのためにノードを選択する行為は通常IIDではないため、偏った学習データがよく問題になります。例えば、固定的な経験則を用いて(ある特徴を共有する)データのサブセットを選択してラベリングを行うこともあれば、人間の分析者が複雑な専門知識を用いてラベリング対象とするデータ項目を個別に選択することもあります。

学習データが局所的になってしまう事は、グラフ構造データに見られる非IIDを原因とするバイアスの典型的な例です。これは左図で、オレンジ色のノードを取り上げて、その周囲から他のサンプルも抽出する事で示されています。一方、ラベリング用のノードをIIDでサンプリングするならば、右図のサンプリングプロセスで示されるように、一様に分布しているはずです。

トレーニングデータに存在する偏りの量を定量化するためには、2つの異なる確率分布の間のずれの大きさを測定する方法があり、ずれの大きさは偏りの量と考えることができます。偏りが大きくなると、機械学習モデルは偏った訓練集合から汎化することが難しくなります。このような状況は、汎化能力を著しく低下させます。学術的なデータセットでは、領域移行(domain shifts)によって15～20%の性能低下(F1スコアで測定)が起こることが確認されています。

NeurIPS 2021で発表した「Shift-Robust GNNs: Overcoming the Limitations of Localized Graph Training Data」では、偏ったデータでGNNを利用するための解決策を紹介しています。

Shift-Robust GNN(SR-GNN)と呼ばれるこのアプローチは、偏った学習データとグラフの真の推論分布との間の分布の違いを考慮するよう設計されています。SR-GNNは、学習用にラベル付けされたノードと残りのデータセットとの間の分布のずれがある場合に、GNNモデルをそれに適応させます。

半教師付き学習のための一般的なGNNベンチマークデータセットに偏った訓練データを用いた様々な実験でSR-GNNの有効性を示し、SR-GNNが比較した他のGNN手法を精度において上回り、偏った訓練データの悪影響を30-40%低減することを示します。