1.GraphWorld:グラフニューラルネットワーク用データセットを自動生成(1/2)まとめ
・グラフニューラルネットワークは人気が高まっているがベンチマークセットは多くない
・グラフは相互接続性や接続の偏りなどで様々な形を持つが既存ベンチマークは多様性がない
・GraphWorldでは確率モデルを用いて潜在的なグラフの世界を直接生成してテストできる
2.GraphWorldとは?
以下、ai.googleblog.comより「GraphWorld: Advances in Graph Benchmarking」の意訳です。元記事は2022年5月4日、John PalowitchさんとAnton Tsitsulinさんによる投稿です。
アイキャッチ画像のクレジットはPhoto by engin akyurt on Unsplash
グラフは、ソーシャルネットワーク、交通インフラ、分子、インターネットなど、関係性を持つ構成要素が接続された自然界のシステムにおいて非常に一般的な表現です。
グラフニューラルネットワーク(GNN:Graph Neural Networks)は、グラフを扱う強力な機械学習(ML:machine learning)モデルであり、グラフに内在するつながりを利用して、グラフ内のアイテムやグラフ全体についての予測に文脈を取り込むことができます。
GNNは、新薬の発見、数学者の定理証明、誤報の検出、Google Mapsの到着時間予測の精度向上などに効果的に利用されてきました。
過去10年間のGNNへの関心の高まりにより、何千ものGNNの亜種が生まれ、毎年何百ものGNNが導入されています。一方、GNNを評価するための手法やデータセットにはあまり注目が集まっていません。
多くのGNN論文は同じ5~10のベンチマークデータセットを再利用しており、そのほとんどは簡単にラベル付けされた学術引用ネットワークや分子データセットから構築されています。
つまり、新しいGNNの実証的性能は、限られた種類のグラフに対してのみ主張することができます。この問題をさらに難しくしているのは、最近発表された厳密な実験デザインの研究であり、主要論文で報告された一般的なGNNモデルの性能ランキングに疑問を投げかけています。
最近、GNNベンチマークに特化したワークショップやカンファレンストラックがこれらの問題に取り組み始めています。最近導入されたOpen Graph Benchmark(OGB)は、様々なタスクの大規模グラフデータセットを用いてGNNをベンチマークするためのオープンソースのパッケージであり、一貫したGNN実験設計を容易にするものです。
しかし、OGBのデータセットは、引用や分子ネットワークなど、既存のデータセットと同じ領域の多くから取得されています。つまり、OGBは私達が上で述べた「データセットの多様性の問題」を解決していないのです。
したがって、私達は、GNN研究コミュニティは、実世界で見られる大きな統計的分散のあるグラフで実験することで、どのようにしてイノベーションに追いつくことができるのかを問いました。
GNNの研究の規模とペースに合わせるために論文「GraphWorld: Fake Graphs Bring Real Insights for GNNs」では、数百万の合成ベンチマークデータセットを用いてGNNアーキテクチャの性能を分析する手法を紹介しています。
「潜在的なグラフの世界」は完全に多様ですが、学術論文で取り上げられるGNNベンチマークデータセットは、世界の中に存在する個々の「場所」にすぎません。
GraphWorldは確率モデルを用いてこの「潜在的なグラフの世界」を直接生成し、その世界のすべての場所でGNNモデルをテストし、その結果から一般化可能な知見を抽出することができます。
私達はGNNベンチマークとしてGraphWorldを提案し、研究者が一般的な学術データセットではカバーできないグラフ空間領域でGNNの性能を探索することを可能にします。さらに、GraphWorldは費用対効果が高く、合成データ上で数十万回のGNN実験を実行しても、大規模OGBデータ上で1回の実験を行うよりも少ない計算コストで済みます。
GraphWorldパイプラインの図解
ユーザはグラフ生成器とテストするGNNモデルの設定を提供します。GraphWorldはワーカーを生成し、それぞれが多様な特性を持つ新しいグラフをシミュレートし、指定されたすべてのGNNモデルをテストします。ワーカーからのテスト指標は集計され、ユーザ用に保存されます。
GNNベンチマークデータセットの種類の少なさ
GraphWorldの開発動機を説明するために、OGBのグラフをNetwork Repositoryのグラフコレクション(5,000以上)と比較しました。
Network Repositoryのグラフの大部分はラベル付けされていないため、一般的なGNN実験では使用できませんが、実世界で利用可能なグラフの大きな空間を代表しています。私達はOGBとNetwork Repositoryグラフの2つの特性を計算しました。
・クラスタリング係数(clustering coefficient)
ノードが近傍の隣人にどれだけ相互接続しているか
・次数分布ジニ係数(degree distribution gini coefficient)
ノードの接続数間の不公平さ
です。私達は、OGBデータセットがこの指標空間の限られたまばらな領域に存在することを発見しました。
Open Graph Benchmarkのグラフの分布は、Network Repositoryのグラフの大きな母集団と一致しません。
GraphWorldのデータセット生成器
GraphWorldを使ってあるタスクのGNN性能を調査する研究者は、まず、そのタスクでGNNモデルをストレステストするためのグラフデータセットを生成できるパラメータ付き生成器(以下の例)を選びます。
生成器のパラメータは、出力データセットのハイレベルな特徴を制御するための入力です。GraphWorldは、パラメータ化されたジェネレータを使用して、最新のGNNモデルの限界をテストするのに十分なほど多様なグラフデータセットの母集団を生成することができます。
例えば、GNNの代表的なタスクはノード分類であり、GNNはソーシャルネットワークにおけるユーザーの興味など、各ノードの未知の特性を表すノードラベルを推論するよう学習します。
本論文では、このタスク用データセットを生成するために、よく知られた確率的ブロックモデル(SBM:Stochastic Block Model)を選択しました。
SBMはまず、あらかじめ設定された数のノードをグループまたは「クラスタ」に整理し、分類すべきノードラベルとして機能させます。次に、結果として得られるグラフの異なる特性を制御する様々なパラメータに従って、ノード間の接続を生成します。
3.GraphWorld:グラフニューラルネットワーク用データセットを自動生成(1/2)関連リンク
1)ai.googleblog.com
GraphWorld: Advances in Graph Benchmarking
2)arxiv.org
GraphWorld: Fake Graphs Bring Real Insights for GNNs
3)github.com
google-research / graphworld