world model

学習手法

Director:マネージャーの上に社長を配置して疎らな報酬に挑む(2/2)

1.Director:マネージャーの上に社長を配置して疎らな報酬に挑む(2/2)まとめ・Directorは世界モデルに基づく2つの最先端アルゴリズムより高いスコアを出した・必ずしも長期目線の探索を必要としてないタスクでも高いスコアを出せた・...
学習手法

Director:マネージャーの上に社長を配置して疎らな報酬に挑む(1/2)

1.Director:マネージャーの上に社長を配置して疎らな報酬に挑む(1/2)まとめ・強化学習はタスクがゴールに近づいている事を知るせるために報酬の設定が必要・ゴールに近づいている事がはっきりしない迷路探索タスクなどでは報酬設定が困難・タ...
モデル

Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(2/2)

1.Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(2/2)まとめ・Pathdreamerはベースラインと比較して成功率を10%高くする事ができる・現実世界を実際に移動するエージェントより成功率は低いが時間とリソ...
モデル

Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(1/2)

1.Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(1/2)まとめ・人はなじみのない建物内でも視覚的な手がかりを利用して効率的に移動できる・この機能をAIで実現するためには「視覚的な世界モデル」の実装が必要となる...
モデル

Dreamer V2:モデルベース強化学習でモデルフリー強化学習を超える(2/2)

1.Dreamer V2:モデルベース強化学習でモデルフリー強化学習を超える(2/2)まとめ・Atariベンチマークには3つのパフォーマンス計測基準が存在するが一長一短であった・Clipped Record Meanと言う従来手法より人間と...
モデル

Dreamer V2:モデルベース強化学習でモデルフリー強化学習を超える(1/2)

1.Dreamer V2:モデルベース強化学習でモデルフリー強化学習を超える(1/2)まとめ・従来のモデルベース強化学習はモデルフリーアプローチに正確性で劣った・Dreamer V2はAtariベンチマークで人間レベルのパフォーマンスを達成...
学習手法

Dreamer:長期視点で考える事が出来る強化学習(3/3)

1.Dreamer:長期視点で考える事が出来る強化学習(3/3)まとめ・モデルベースのエージェントは500万フレーム未満、シミュレーション内の28時間で効率的に学習可能・モデルフリーのエージェントは学習が遅く1億フレーム、23日間に相当する...
学習手法

Dreamer:長期視点で考える事が出来る強化学習(2/3)

1.Dreamer:長期視点で考える事が出来る強化学習(2/3)まとめ・強力な世界モデルでさえ、正確に予測できる範囲が限られており多くは近視眼的だった・Dreamerは、バリューネットワークとアクターネットワークでこの制限を克服・Dream...
モデル

Dreamer:長期視点で考える事が出来る強化学習(1/3)

1.Dreamer:長期視点で考える事が出来る強化学習(1/3)まとめ・世界モデルを使用しない強化学習は学習に大量の試行錯誤と時間が必要なため実用性が制限される・世界モデルを使用する強化学習もプランニングメカニズムがネックになり能力が制限さ...
学習手法

PlaNet:画像入力から世界モデルを学ぶ強化学習(2/3)

1.PlaNet:画像入力から世界モデルを学ぶ強化学習(2/3)まとめ・エージェントは特定の操作によってボールの位置やゴールまでの距離がどのように変化するか想像出来る・大量の計算が必要な画像作成を省略し将来の報酬を予測するだけでよいので高速...