強化学習

AI

DVRL:強化学習を使って学習用データの影響を推定(2/2)

1.DVRL:強化学習を使って学習用データの影響を推定(1/2)まとめ ・DVRLはデータ価値の推定やノイズ影響の除去で従来手法より優れた成果を出した ・学習データが検証/テストデータと異なる分布に由来するドメイン適応シナリオも対応可 ...
AI

DVRL:強化学習を使って学習用データの影響を推定(1/2)

1.DVRL:強化学習を使って学習用データの影響を推定(1/2)まとめ ・全てのデータサンプルがディープラーニングを学習させる際に等しく役立つわけではない ・低品質データを削除することでパフォーマンスを向上させる事が出来る場合もある ...
AI

人間による評価を使って要約を学ぶ(3/4)

1.人間による評価を使って要約を学ぶ(3/4)まとめ ・初期要約モデル、人間が要約品質を定量化、報酬モデル、RLによる微調整の4ステップで実現 ・要約品質の定量化はラベル付け作業者に高い報酬と緊密な連携を取る事で実現した ・報酬モデル...
AI

人間による評価を使って要約を学ぶ(2/4)

1.人間による評価を使って要約を学ぶ(2/4)まとめ ・人間によるフィードバックを使った微調整は他の手法と比較して品質に大きな影響を与えた ・Redditの投稿と非常に異なったスタイルで書かれたニュースデータセットにも対応できた ・要...
AI

Menger:大規模な分散型強化学習(3/3)

1.Menger:大規模な分散型強化学習(3/3)まとめ ・Reverbが提供する水平分割機能を使用して通信スループットを向上させた ・Mengerは複数のBorgセルにまたがる数千人の行為者に効率的に拡張できた ・大規模チップ配置タ...
タイトルとURLをコピーしました