offline reinforcement learning

学習手法

オフライン強化学習における未解決の課題への取り組み(3/3)

1.オフライン強化学習における未解決の課題への取り組み(3/3)まとめ ・オフラインRLを改善するためには履歴データにない行動を学習する必要がある ・既存手法は履歴データにない行動を過度に過大評価してしまう問題があった ・基本的に悲観的な予...
学習手法

オフライン強化学習における未解決の課題への取り組み(2/3)

1.オフライン強化学習における未解決の課題への取り組み(2/3)まとめ ・D4RLは現実的なアプリケーションを念頭に作られたベンチマークである事が特徴 ・タスクの目的と違う目的を実行した記録から学習する能力などが試される ・タスクと標準化さ...
学習手法

オフライン強化学習に関する楽観的な見解(2/2)

1.オフライン強化学習に関する楽観的な見解(2/2)まとめ ・教師あり学習のアンサンブル手法を応用してREMと言う新しい強化学習アルゴリズムを開発 ・REMはオフライン設定とオンライン設定で比較するとオフライン設定の方が高い性能を出せていた...
学習手法

オフライン強化学習に関する楽観的な見解(1/2)

1.オフライン強化学習に関する楽観的な見解(1/2)まとめ ・ほとんどの強化学習は、エージェントが直接オンライン環境と対話するオンライン強化学習が前提 ・オフライン強化学習はエージェントが収集済みデータにないアクションを実行した際の評価が困...