sparse reward

学習手法

Director:マネージャーの上に社長を配置して疎らな報酬に挑む(1/2)

1.Director:マネージャーの上に社長を配置して疎らな報酬に挑む(1/2)まとめ ・強化学習はタスクがゴールに近づいている事を知るせるために報酬の設定が必要 ・ゴールに近づいている事がはっきりしない迷路探索タスクなどでは報酬設定が困難...
入門/解説

Google Research:2019年の振り返りと2020年以降に向けて(5/8)

1.Google Research:2019年の振り返りと2020年以降に向けて(5/8)まとめ ・2019年はニューラルネットワークのトレーニングにどのような力学が働くのか特性を理解を目指した ・AutoMLの研究も継続し、既存モデルの改...
モデル

MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(3/3)

1.MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(3/3)まとめ ・報酬が疎になる作業を学習させるためにカルバック・ライブラー情報量(KL)を利用している ・カルバック・ライブラー情報量は、2つの異なる確率分布がどの程度異なるかを示す...
入門/解説

MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(1/3)

1.MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(1/3)まとめ ・強化学習はアクションに対するフィードバック(報酬)が重要 ・報酬が疎であったり報酬に繋がる行動が不明では学習が困難 ・特に仕様が不明確な報酬は予想外の行動に繋がる可能...