人間による評価を使って要約を学ぶ(4/4)

１．人間による評価を使って要約を学ぶ(4/4)まとめ

・モデルは依然として不正確な要約を生成する可能性があり満点の要約は45%の割合で達成
・人間がモデル出力の品質を簡単に評価できないようなタスクにも今回の手法を応用したい
・人間の好みに合わせるためにモデルに最も効果的なフィードバックが何かを特定したい

２．要約モデルの制限

以下、openai.comより「Learning to Summarize with Human Feedback」の意訳です。元記事の投稿は2020年9月4日、Jeffrey Wuさん、Ryan Loweさん、Long Ouyangさん、Nisan Stiennonさん、Paul Christianoさん、Daniel Zieglerさん、Chelsea Vossさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Aaron Burden on Unsplash

報酬モデルに対して最適化することは、ポリシーを人間の好みに合わせることです。

ただし、報酬モデルは、狭い分布内の少量の比較用要約データしか知らないため、人間の好みを代替しているだけにすぎません。

報酬モデルは、トレーニングされた種類の要約でうまく機能します。しかし、それが役に立たない評価をし始めるまで、どれだけ最適化できるか知りたく思いました。

報酬モデルに対して様々な「最適化強度」でポリシーをトレーニングし、これらのモデルからの要約を評価するようにラベル付け作業者に依頼しました。KL係数を変更してこれを調べました。KL係数は、最初の教師ありポリシーの近くに留まるインセンティブを、より高い報酬を得るためのインセンティブとトレードオフします。

最良のサンプルは、データセット内の参照要約の99パーセントでほぼ同じ予測報酬を持っていることがわかりました。報酬モデルに最適化していくと、最終的には要約品質が悪化します。

制限
モデルに必要な動作が概念として明確に定義されている場合、人間のフィードバックを使ってトレーニングする手法により、この動作を最適化できます。ただし、これは、望ましいモデルの動作はどうあるべきかを決定する方法ではありません。

何が適切な要約になるかを決定することはかなり簡単です。しかし、「正しいモデルの動作」が人によって異なる可能性がある、より複雑な目的を持つタスクに対してこれを行うには、かなりの注意が必要です。

このような場合、研究者が付与したラベルを「ゴールドスタンダード」として使用することは適切ではない可能性があります。むしろ、テクノロジーの影響を受けるグループに属する個人をプロセスに含めて「良い」行動を定義し、モデルがこの行動を強化するためにラベラーとして雇用する必要があります。

CNN/DMよりもReddit TL; DRデータセットの要約タスクの方がはるかに難しいため、Reddit TL; DRデータセットでトレーニングしました。ただし、データセットは最小限のモデレートしかしておらず、ユーザーが送信した投稿そのままで構成されているため、不快なコンテンツや有害な社会的偏見を反映したコンテンツが含まれている場合があります。本モデルは、そのようなコンテンツを要約するようにトレーニングされているため、モデルが偏ったまたは不快な要約を生成できることを意味します。

私達の成功の一部には、報酬モデルとポリシーサイズの規模を拡大した事が含まれます。これには大量の計算が必要であり、全ての研究者が利用できるわけではありません。特に、RLを使用して60億パラメータのモデルを微調整するには、約320GPU日が必要です。ただし、人間のフィードバックでトレーニングされた小さなモデルは、はるかに大きなモデルのパフォーマンスを超える可能性があるため、特定のタスクで高品質のモデルをトレーニングするために単に規模を拡大するよりも、この手順の方が費用対効果が高くなります。

TL;DRでは人間が書いた参照要約を上回っていますが、TL;DRとCNN/DMの参照要約のベースラインは可能な限り最高な品質を定めているわけではないため、モデルは人間レベルのパフォーマンスに達していない可能性があります。

モデルのTL;DR要約を、品質のいくつかの軸(精度、カバレッジ、一貫性、および全体)に沿って7段階で評価した際、ラベル付与者は、モデルが依然として不正確な要約を生成する可能性があることに気付きました。モデルは45%の確率で総合スコアでパーフェクトを達成します。

また、コスト上の理由から、私達が同等の予算を使用して高品質のデモンストレーションを収集したり、標準の教師付き微調整を使用したトレーニングと直接比較することはありません。

将来の方向性
私達は、人間がモデル出力の品質を簡単に評価できないようなタスクに人間のフィードバックを拡大する事に関心があります。例えば、人間が検証するのに多くの調査が必要な質問をモデル答えて欲しい場合があります。

この場合、モデルをトレーニングするのに十分な人間の評価を取得するには、長い時間がかかります。

この問題に取り組むための1つのアプローチは、人間がより迅速かつ正確に評価するのに役立つようなツールを提供することです。これらのツールがMLを使用している場合、人間のフィードバックを使用してツールを改善することもできます。これにより、人間はますます複雑になるタスクのモデル出力を正確に評価できます。

より難しい問題に取り組むことに加えて、Yes/Noで答える以外の様々なタイプのフィードバックも調査しています。人間にデモンストレーションの提供を頼んだり、モデル出力を編集して改善したり、あるモデル出力が別のモデル出力より優れている理由を説明したりすることができます。

人間の好みに合わせるために、モデルのトレーニング中に最も効果的なフィードバックを与えるのは何かを特定したいと思います。

これらの研究課題に取り組むことに興味がある場合、私達は採用活動をしていますよ！