BERTは文法を理解しているのか？頻度を見ているだけなのか？(2/2)

１．BERTは文法を理解しているのか？頻度を見ているだけなのか？(2/2)まとめ

・BERTは主語と動詞の一致ルールで単純な経験則モデルより良い性能である
・主語と動詞が一致すべき事と高頻度の単語がより可能性が高い事を知っている
・一致が従うべき規則で頻度は単なる好みであることまでは理解していない

２．BERTは文法を規則としては理解していない

以下、ai.googleblog.comより「Evaluating Syntactic Abilities of Language Models」の意訳です。元記事の投稿は2021年12月2日、Jason WeiさんとDan Garretteさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Ashes Sitoula on Unsplash

初見の主語と動詞のペア

まず、「事前学習中に出現した主語と動詞のペア」と、「事前学習中に同じ文の中で主語と動詞が同時に使われなかったペア」で、モデルがどの程度うまくいくかを調べました。

自然文(natural sentences)とノンス文(nonce sentences)を使って評価した際のBERTのエラー率
特定の「主語と動詞のペア(SV)」が訓練中に同じ文中に出現したかどうかで分けられています。初見のSVペアに対するBERTの性能は、より頻度の高い動詞を選ぶモデル、より頻度の高いSVペアを選ぶモデルといった単純な経験則に基づくモデルよりはるかに優れています。

動詞の頻度

次に、見た事があるかないかだけでなく、単語の頻度が主語と動詞の一致ルールを正しく使用するBERTの能力にどのような影響を与えるかを検討しました。

この研究では、60個の動詞を選び、それぞれ特定の頻度で60個の動詞を含むように設計された複数のバージョンの事前学習データを作成し、単数形と複数形が同じ回数だけ出現するようにしました。そして、これらの異なるデータセットからBERTモデルを学習させ、主語と動詞の一致タスクで評価しました。

主語と動詞の一致規則を守るBERTの能力は、トレーニングセット内の動詞の出現頻度によって変わります。

この結果から、BERTは主語と動詞の一致ルールをモデル化することはできますが、そのルールに確実に従って動詞を使用するようになるためには、約100回動詞を見る必要があることがわかりました。

動詞の単数形と複数形の相対出現頻度の影響

最後に、動詞の単数形と複数形の相対的な頻度がBERTの予測にどのような影響を与えるかを理解したいと思いました。例えば、ある動詞の形(例:combat)が他の動詞の形(例:combats)よりもずっと頻繁に事前学習データに現れた場合、BERTは、それが文法的に正しくない場合でも、より頻繁に現れる形に高い確率を割り当てる可能性が高くなる場合があります。

そこで、同じ60個の動詞を使用し、動詞の頻度比を1:1から100:1まで変化させた事前学習データを作成し、評価しました。下図は、このように頻度の不均衡を変化させた場合のBERTの性能を示しています。