組成の一般化能力の測定(3/3)

１．組成の一般化能力の測定(3/3)まとめ

・compound divergenceという新しい指標によりデータセットの難度を数値で表す事ができた
・代表的な3つの標準的なMLアーキテクチャは難度があがるにつれて正確性が直線的にさがってしまう
・従って標準的なMLアーキテクチャは組成を一般化する事が出来ておらず新たなアプローチが必要

２．compound divergence

以下、ai.googleblog.comより「Measuring Compositional Generalization」の意訳です。元記事の投稿は2020年3月6日、Marc van Zeeさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Raphaël Biscaldi on Unsplash

CFQを使った「組成の一般化」実験
与えられたトレーニングデータとテストデータについて、トレーニングデータとテストデータセットの複合分布が非常に類似している場合、それらのcompound divergenceは0に近くなり、組成の一般化を試験する用途としては難しい試験ではないことを示しています。compound divergenceが1に近いということは、トレーニングデータとテストデータセットに多くの異なる複合物があることを意味し、組成の一般化のテストとして適しています。つまり、compound divergenceは、「複合分布の難度」を表していると見なす事ができます。

0～0.7(最大値)の範囲のcompound divergenceを持つCFQデータセットを使用して、トレーニングセットとテストセットをアルゴリズム的に生成しました。

要素の相違を非常に小さく修正します。次に、難度の異なる各train-test分割について、3つの標準MLアーキテクチャ(LSTM + attention、Transformer、およびUniversal Transformer)のパフォーマンスを測定しました。結果を下のグラフに示します。

3つのMLアーキテクチャのcompound divergenceと精度
compound divergenceと精度の間には、驚くほど強い負の相関があります