1.人間による評価を使って要約を学ぶ(2/4)まとめ
・人間によるフィードバックを使った微調整は他の手法と比較して品質に大きな影響を与えた
・Redditの投稿と非常に異なったスタイルで書かれたニュースデータセットにも対応できた
・要約の長さを制限するとモデルは人間が作成した参照要約文よりも高い評価を得た
2.人間によるフィードバックモデルの性能
以下、openai.comより「Learning to Summarize with Human Feedback」の意訳です。元記事の投稿は2020年9月4日、Jeffrey Wuさん、Ryan Loweさん、Long Ouyangさん、Nisan Stiennonさん、Paul Christianoさん、Daniel Zieglerさん、Chelsea Vossさんによる投稿です。
アイキャッチ画像のクレジットはPhoto by Aaron Burden on Unsplash
人間のフィードバックを使った強化学習の微調整は、「教師付きの微調整」や「モデルサイズの規模拡大」と比較して、品質に非常に大きな影響を与えることがわかりました。
特に、人間によるフィードバックでトレーニングされた13億パラメーター(1.3B)モデルは、教師あり学習のみでトレーニングされた110億(11B)モデルよりも優れています。
13億と60億の両方の人間によるフィードバックモデルの要約は、データセット内に存在する人間が書いたTL;DR(参照要約)よりもラベル付け作業者に好まれました。
人間は要約を書くとき、要約の「簡潔さ」と「元の文章を含める範囲」など、様々なトレードオフを行います。要約の目的に応じて、異なる要約の長さが好まれる場合があります。
私達のラベル付け作業者はより長い要約を好む傾向があったので、モデルはその好みに適応し、許容される最長の長さに収束しました。要約の長さを制限すると、60億モデルの要約に対する人間の好みは70%から65%に減少し、短い要約の評価が悪くなる事がわかりました。
転移結果
Reddit転移でトレーニングされた人間のフィードバックモデルは、更なるトレーニングなしでCNN/DMニュース記事の優れた要約を生成します。
様々なトレーニング手順とモデルサイズのパフォーマンス(要約品質を人間が1~7点で評価しています)人間によるフィードバックを使ったモデルは、CNN/DMでトレーニングされたモデルの要約よりも大幅に短い要約を生成することに注意してください。
要約の長さを制限した場合、Redditでトレーニングされた60億パラメータの人間によるフィードバックモデルは、CNN/DMで再トレーニングされていないにもかかわらず、微調整された110億パラメータのT5モデルとほぼ同等に機能します。
モデルの一般化性能をテストするために、人気のあるCNN/DMニュースデータセットに直接適用しました。これらの記事はRedditの投稿の2倍以上の長さで、非常に異なったスタイルで書かれています。
私達のモデルは事前トレーニング中にこのニュース記事を見ましたが、人間によるフィードバック評価とRLの微調整は全てReddit TL; DRデータセットを使っています。
今回は、ラベル付け作業者に1~7の点数でモデルを評価するように依頼しました。人間によるフィードバックモデルが転移され、トレーニングなしでもニュース記事の優れた短い要約が生成されることがわかりました。
要約の長さを制御する場合、60億の人間によるフィードバックモデルは、人間が作成したCNN/DMデータセットの要約文よりも高い評価の要約を生成します。これは、人間によるフィードバックモデルが、テキストを要約する方法についてより一般的なことを学んでおり、Redditの投稿に固有の要約手法を学んだのではないことを示唆しています。
CNN/DMデータセット内のdailymailの記事より
マクドナルドは、全国の1,500のレストランのスタッフの昇給を発表しました
同社が全米のレストランで賃金を引き上げる計画を明らかにしたため、世界で最も売上高の高いファーストフードチェーンはその収益のもう少しを労働者と共有することになります。
マクドナルドは水曜日に、フルタイムとパートタイムの従業員の初任給を、会社所有のレストランでは最低賃金よりも1ドル引き上げると発表しました。
同社によれば、7月1日から引き上げが開始され、2016年末までの平均賃金は、現在の時給$9から2016年末までに時給$10以上になると見込まれています。
給与小切手の肥大化:マクドナルドは水曜日に、レストランの初任給を7月1日から最低賃金より1ドル引き上げると発表しました。米国のマクドナルドは、全国にある14,300を超えるマクドナルドのレストランの約10%を所有しており、残りは昇給の対象とならないフランチャイズとして運営されています。
ハンバーガーブランドは、経済の改善と賃金引き上げへの国民の圧力を背景に、基本給を引き上げる他の大企業に加わっています。
マクドナルドを含むファーストフードチェーンの労働者は昨年、抗議行動を行い、企業に賃金を1時間あたり15ドルに引き上げるよう求め、組合を要求しました。
労働関係委員会と米国労働安全衛生局の前での抗議活動も、残業代の拒否やレストランチェーンでの危険な労働条件などの違反を主張しています。
一方、経済は引き続き堅調に推移しており、失業率は昨年の6.7%から5.5%に低下しました。
米国マクドナルドの社長マイク・アンドレスはAP通信に、マクドナルドの従業員のほんの一握りだけがデモに参加し、彼らは会社の評判に影響を与えなかったと語りました。
抗議デモ:ファーストフード業界の賃金を1時間あたり15ドルに引き上げるキャンペーンを行っている労働組織は、さまざまなセクターで低賃金労働者を団結させるために戦っていると述べています
「彼らは損失を受けていません」とアンドレスは主張しました。
「今は非常に競争の激しい市場環境です」とアンドレスは述べました。「この計画が重要な理由は、私達が最も競争力があり魅力的な雇用主になりたいということです。」
先月、マクドナルドの最高総務責任者であるピート・ベンセンは、このような発表が進行中である可能性があることをほのめかしました。ベンセン氏は当時、米国での改善活動の取り組みの大部分は「雇用者としてのイメージと従業員と雇用者の関係を中心に」行っていると述べました。
マクドナルドは、賃金の引き上げに加えて、会社所有の店舗の労働者には有給休暇が与えられると述べています。
会社で1年以上働いており、週に平均20時間働いている従業員は、1年に約20時間の有給休暇を取得する資格があります。マクドナルドによると、休暇を取らなかった労働者には、その時間の価値が支払われるという。
ノースカロライナ州のマクドナルドの労働者であるクワンザ・ブルックスは、今回の動きは「本当の違いを生むには少なすぎる」と述べました。
ごく一部の賃金を少しだけ引き上げても変わりません。 それは純粋に一目を引くためだけの行動です」と彼女は労働組織によって設定された電話会議で言いました。
マクドナルドの米国事業は苦戦しており、既存店舗での売上高と顧客数は2年連続で減少しています。
1月、同社は最高ブランド責任者であるスティーブ・イースターブルックを新しいCEOに任命しました。この辞令は先月有効になりました。
イースターブルックは水曜日の声明で、「意欲的な労働力がより良い顧客サービスにつながることを知っているので、この最初のステップは従業員に利益をもたらすだけでなく、マクドナルドのレストラン体験を改善すると信じています」と述べました。
マクドナルドはまた、会社やフランチャイズが所有するレストランの労働者が高校や大学を卒業するのを助けるために給付を拡大していると述べました。そのプログラムの詳細は直ちには発表されませんでした。
ファーストフードチェーンは、自社所有のレストランで最低賃金を1ドル上回る支払をするようになります。賃金の引き上げは、マクドナルドの90%を占めるフランチャイズレストランには影響しません。同社は昨年、抗議行動の標的にされ、ファーストフード労働者が組合と時給15ドルのデモを行いました。
マクドナルドは、全国の従業員の初任給を引き上げています。ハンバーガーの巨人は、経済の改善と賃金引き上げへの国民の圧力を背景に、基本給を引き上げる他の大企業に加わりました。
マクドナルドは、初任給を1時間あたり$10に引き上げ、最低賃金を1時間あたり$9に引き上げます。
マクドナルドは水曜日、レストランの初任給を7月1日から最低賃金より1ドル引き上げると発表した。
マクドナルドは水曜日に、フルタイムおよびパートタイムの従業員の初任給を最低賃金よりも1ドル引き上げると発表しました。同社によれば、7月1日から引き上げが開始されます。平均賃金は2016年末までに1時間あたり10を超え、2016年末までに現在の時給$9から時給$10に上昇すると見込まれています。
マクドナルドは水曜日に、フルタイムとパートタイムの従業員の初任給を最低賃金よりも1ドル引き上げると発表しました。同社は、2016年末までに平均賃金が1時間あたり$10を超え、2016年末までに現在の時給$9から時給$10以上に上昇すると予想しています。マクドナルドUSAは、全国にある14,300を超えるマクドナルドのレストランの約10%を所有しています。
3.人間による評価を使って要約を学ぶ(2/4)まとめ
1)openai.com
Learning to Summarize with Human Feedback
2)arxiv.org
Learning to summarize from human feedback
3)github.com
openai / summarize-from-feedback
4)openaipublic.blob.core.windows.net
models trained in the “Learning to Summarize from Human Feedback” paper.