組成の一般化能力の測定(1/3)

１．組成の一般化能力の測定(1/3)まとめ

・人間は新しい単語の意味を学習し、それを他の文脈に適用することができる
・機械学習ではこのスキルは「組成の一般化(compositional generalization)」と呼ぶ
・しかし「組成の一般化」を体系的に計測する手段は従来存在しなかった

２．compositional generalizationとは？

以下、ai.googleblog.comより「Measuring Compositional Generalization」の意訳です。元記事の投稿は2020年3月6日、Marc van Zeeさんによる投稿です。AIが「要素(atoms)」とそれを組み合わせた様々な「複合物(compounds)」を認識できるかというお話です。そこから連想した原子っぽい画像を選んだアイキャッチ画像のクレジットはPhoto by Raphaël Biscaldi on Unsplash

人々は新しい単語の意味を学習し、それを他の文脈に適用することができます。

LakeとBaroniが論文「Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks」で指摘したように、「人間は新しい動詞「dax」の意味を学ぶと、彼または彼女はすぐに「dax twice」と「sing and dax」の意味を理解できるようになります」

訳注：daxは普通に英和辞書を引くとドイツ株価指数(DAX:Deutscher Aktienindex)、IT系の用語集だとData Analysis Expressions(DAX)、もしくは昔のホンダのバイクのHonda DAX、人名などなど、主要な英英辞書でもdaxがドイツ株価指数以外の意味で掲載された事例を見つける事が一切出来ませんでした。用例として見つける事が出来たのは、幼児が知らない単語の意味を推測する方法を研究した論文や本の中だけです。そこからの推測ですが、daxは英語に存在しない造語と思います。「The dax is crying」などと幼児に聞かせると幼児は動詞のis cryingの方からdaxが名詞である事を推測したり「a dax」や「some dax」の表現を見て可算名詞と不可算名詞を判断している等の研究内容なので、たぶん、研究用途で作られた造語で英語に存在しない単語、つまりは幼児が過去に学習していない事が確実で何らかの方法で意味を推測せざるを得ないような造語を使って実験しているのだと思われます。

同様に、新しい物体の形状を学習した後に、その時に学習した色または材質が異なる構成であっても同じ物体として認識できます。(例えば、CLEVRデータセット)

これは人間が、潜在的に無限にある「既知の部品同士の新しい組み合わせ」を理解し、生成する能力を持つためです。またはチョムスキーが言ったように「有限な文法規則を使用して、無限に文を作成できる(infinite use of finite means)」ためです。

機械学習モデルでは、このスキルは「組成の一般化(compositional generalization)」と呼ばれます。機械学習(ML)システムで組成の一般化を測定するための一般的なアプローチは、組成と直観的に相関する属性に基づいてトレーニングデータとテストデータを分割する事です。

例えば、1つのアプローチは、長さに基づいてデータを分割する事です。つまり、トレーニングセットは短いサンプル、テストセットは長いサンプルから構成されるように分割します。

別のアプローチでは、連続するパターンを使用します。つまり、同じパターンを共有するグループ化されたサンプルを、トレーニングセットまたはテストセットのいずれかにランダムに分割します。例えば、「Who directed Movie1」および「Who directed Movie2」という質問は両方とも「Who directed <MOVIE>」の同じパターンに該当するため、グループ化できます。

さらに別の方法では、ホールドされたプリミティブ(held out primitives)を使用します。一部の言語プリミティブは、トレーニング中にめったに表示されません(動詞「ジャンプ」など)が、テストセットでは非常に顕著になります。

これらの実験はそれぞれ有用ですが、どの実験が組成の「より良い」尺度であるかはすぐにはわかりません。「最も優れている組成の一般化」を体系的に設計することは可能でしょうか？

論文「Measuring Compositional Generalization: A Comprehensive Method on Realistic Data」では、私達は現実的な自然言語理解タスク、具体的には意味解析と質問回答を使用して、組成の一般化のための最大かつ最も包括的なベンチマークを導入することにより、この疑問に対処しようとします。

この研究では、新しい評価基準、compound divergenceを提案します。compound divergenceを使うと、MLシステムの組成の一般化能力を定量的に評価できます。

私達は3つのsequence to sequenceアーキテクチャーを調査し、組成の一般化能力を分析しました。その結果、これらのアーキテクチャーが組成の一般化に失敗する事を発見しました。

また、今回の結果を改善したい研究者向けのリソースとして、研究で使用されているCompositional Freebase Questionsデータセットをリリースしています。