評価が難しい作業を実行するAIを人間が評価しやすくする工夫

基礎理論

1.評価が難しい作業を実行するAIを人間が評価しやすくする工夫まとめ

・AIが意図しなかった動作をしてしまう事は合致問題(alignment problem)として知られる
・合致問題は「モデルの出力を人間が評価する事が困難または時間がかかる」際に問題となる
・1冊の本全体を要約するモデルを使って合致問題の規模が大きくても解決する手法を探った

2.合致問題(alignment problem)とは?

以下、openai.comより「Summarizing Books with Human Feedback」の意訳です。元記事は2021年9月23日、Jeffrey Wuさん、Ryan Loweさん、Jan Leikeさんによる投稿です。

要約を行う人工知能は、GoogleだとPEGASUS、OpenAIも人間の評価を応用して要約を評価する仕組みを過去に発表してますが、今回は一冊の本レベルの長さの長文を対象にしたお話です。

アイキャッチ画像のクレジットはPhoto by SAMANTA SANTY on Unsplash

将来、強力な汎用人工知能を安全に社会に展開するためには、機械学習モデルが人間の意図に従って動作するようにする必要があります。この課題は、「合致問題(alignment problem)」として知られるようになりました。

合致問題に対する規模拡大可能な解決策は、「モデルの出力を人間が評価する事が困難または時間がかかるタスク」でも機能する必要があります。

規模拡大可能な合致問題解決法をテストするために、以下のサンプルに示すように、本全体を要約するモデルをトレーニングしました。私たちのモデルは、最初に本の小さなセクションを要約し、次にそれらの要約をより高いレベルの要約に要約することによって機能します。

「不思議の国のアリス」


元の文章は26,449 WORDSから構成されています。

元の文書をセクションに分割し、各セクションを要約します。
66の要約は6,024 WORDSから構成されています。

セクションの要約は、再び上位レベルの要約に再要約されます。

6つの要約文は830 WORDSから構成されています。
要約プロセスは、完全な要約が達成されるまで続けられます。

完全な要約文は136 WORDSから構成されています。

私たちの最良のモデルはGPT-3から微調整され、本全体の賢明な要約を生成し、時には人間が書いた要約の平均品質と一致することさえあります。

このモデルは既に本を読んだ人間の5%から6/7の評価(平均的な人間が書いた要約と同等)15%から5/7の評価を得ました。

私たちのモデルは、一冊の本と同等の長文を要約する能力を測るBookSumデータセットで最先端のスコアも実現します。ゼロショットの質問回答モデルは、モデルの要約を使用して、一冊の本と同等の長文内容に関する質問応答能力を測るNarrativeQAデータセットで最新のスコアを達成できます。

私たちのアプローチ:人間のフィードバックを使った強化学習(reinforcement learning from human feedback)と再帰的なタスク分解の組み合わせ

テキストの一部を要約するタスクを検討してみましょう。

事前にトレーニングされた大規模なモデルは、要約タスクがあまり得意ではありません。

モデルが短い投稿や記事を人間の好みに合わせて要約するタスクでは人間のフィードバックを強化学習を使用してモデルをトレーニングすると、役立つことが過去にわかっています。
しかし、本全体の要約を判断することは、人間が本全体を読む必要があり、何時間もかかるため、直接行うには多大な労力を要します。

この問題に対処するために、再帰的なタスク分解を追加で利用します。難しいタスクをより簡単なタスクに手続き的に分割します。

この場合、長いテキストの要約をいくつかの短いテキストの要約に分割します。直接トレーニングする手順と比較して、再帰的なタスク分解(recursive task decomposition)には次の利点があります。

(1)分解により、人間は、元文章を読むのではなく、本の小さな一部分の要約を使用することで、モデルの要約をより迅速に評価できます。

(2)要約作成プロセスを追跡する方が簡単です。たとえば、元のテキストのどこで要約で言及されている特定のイベントが発生したかを追跡して見つけることができます。サマリーエクスプローラーで自分の目で確かめてください!

(3)私たちの方法は、私たちが使用するtransformer モデルが扱える文脈の長さによって制限されない、無制限の長さの本を要約するために使用できます。

なぜこれに取り組んでいるのでしょうか?

この研究は、私たちの使命の鍵となる高度なAIシステムの調整に関する現在進行中の研究の一部です。

ますます複雑なタスクを実行するようにモデルをトレーニングするにつれて、モデルの出力の情報に基づいた評価を行うことは、人間にとってますます困難になります。

これにより、これらのモデルが展開されたときに悪影響をもたらす可能性のあるモデル出力の微妙な問題を検出することが難しくなります。したがって、モデルの機能が向上するにつれて、モデルを評価する能力も向上する必要があります。

この問題に対する現在のアプローチは、他のモデルからの支援を使用して、人間が機械学習モデルの出力を評価できるようにすることです。この場合、本の要約を評価するために、モデルによって作成された個々の章の要約で人間に力を与えます。これにより、元文章を読むことと比較してこれらの要約を評価する時間を節約できます。本の要約に関する私たちの進歩は、規模の大きな合致問題を解決する技術に関する最初の大規模な実証的研究です。

今後は、人間がモデルの動作を評価するのを支援するためのより良い方法を研究しており、人工知能の調整に対応する手法を見つけることを目標としています。

私たちは常に、より才能のある人々が私たちに加わることを求めています。 ですから、この研究に興味があれば、ぜひ私たちのチームに参加してください!

3.評価が難しい作業を実行するAIを人間が評価しやすくする工夫関連リンク

1)openai.com
Summarizing Books with Human Feedback

2)arxiv.org
Recursively Summarizing Books with Human Feedback

3)openaipublic.blob.core.windows.net
Recursively Summarizing Books with Human Feedback

タイトルとURLをコピーしました