natural language generation

データセット

ToTTo:表から文を抽出する能力を測るためのデータセット(1/2)

1.ToTTo:表から文を抽出する能力を測るためのデータセット(1/2)まとめ ・自然言語生成は元の文章に存在しない幻覚のような文章を生成してしまう事がまだある ・既存のデータセットでは幻覚の原因がデータノイズなのかモデルの欠点なのか特定が...
入門/解説

BLEURT:人工知能が生成した文章の品質を評価(3/3)

1.BLEURT:人工知能が生成した文章の品質を評価(3/3)まとめ ・BLEURTは、何百万もの合成文章ペアを使用してモデルを「ウォームアップ」して品質を向上した ・既存の評価手法と比較するとBLEURTは最も良く人間による品質評価と相関...
入門/解説

BLEURT:人工知能が生成した文章の品質を評価(2/3)

1.BLEURT:人工知能が生成した文章の品質を評価(2/3)まとめ ・BLEURTは単語の重複度合に関わらず文章間の意味的類似性を捕捉できる新しい自動評価基準 ・内部的にはBERTの「文脈を意識した単語表現(contextual word...
入門/解説

BLEURT:人工知能が生成した文章の品質を評価(1/3)

1.BLEURT:人工知能が生成した文章の品質を評価(1/3)まとめ ・人工知能が生成した文章を評価する手法は「人間による手動評価」と「機械による自動評価」の2つがある ・手動評価は正確だが手間がかかり自動評価は気軽にできるが高度な言い換え...