学習手法 Director:マネージャーの上に社長を配置して疎らな報酬に挑む(2/2)
1.Director:マネージャーの上に社長を配置して疎らな報酬に挑む(2/2)まとめ ・Directorは世界モデルに基づく2つの最先端アルゴリズムより高いスコアを出した ・必ずしも長期目線の探索を必要としてないタスクでも高いスコアを出せ...
学習手法
学習手法
モデル
モデル
モデル
モデル
学習手法
学習手法
モデル
学習手法