強化学習

1/19ページ

SEED RLによる大規模強化学習(3/3)

AI

1.SEED RLによる大規模強化学習(3/3)まとめ ・SEED RLが4,160CPUで達成する性能と同等な性能を出すにはIMPALAでは14,000CPUが必要となる ・DeepMindラボでは毎秒240万フレームを達成、これは、以前の最先端のモデルIMPALAの80倍 ・SEED RLによって今後は強化学習もGPUやTPUなどのハードウェアの進化の恩恵を受ける事が出来る 2.SEED RL […]

SEED RLによる大規模強化学習(2/3)

AI

1.SEED RLによる大規模強化学習(2/3)まとめ ・従来の強化学習アーキテクチャにはいくつかの欠点がありハードウェアの性能が生かせきれていない ・SEED RLアーキテクチャは欠点を解決するように設計されており規模を拡大して実行する事が可能 ・2つの最先端のアルゴリズムV-traceとR2D2の統合によりSEED RLが実現可能になった 2.SEED RLとIMPALAの違い 以下、ai.g […]

SEED RLによる大規模強化学習(1/3)

AI

1.SEED RLによる大規模強化学習(1/3)まとめ ・強化学習手法は単純なゲームでも学習するために更に多くのトレーニングが必要になってきている ・SEED RLは、数千のマシン上で規模を拡大して実行できる新しい強化学習エージェント ・推論の集中化し、高速通信レイヤーを導入し、大規模なアクセラレータ(GPUまたはTPU)を利用する事で、新しいアーキテクチャーによって実現 2.SEED RLとは? […]

Dreamer:長期視点で考える事が出来る強化学習(3/3)

AI

1.Dreamer:長期視点で考える事が出来る強化学習(3/3)まとめ ・モデルベースのエージェントは500万フレーム未満、シミュレーション内の28時間で効率的に学習可能 ・モデルフリーのエージェントは学習が遅く1億フレーム、23日間に相当する時間を必要とする ・Dreamerは現在の最高のモデルフリーエージェントの平均スコアを20倍少ない学習時間で達成 2.Dreamerの性能 以下、ai.go […]

Dreamer:長期視点で考える事が出来る強化学習(2/3)

AI

1.Dreamer:長期視点で考える事が出来る強化学習(2/3)まとめ ・強力な世界モデルでさえ、正確に予測できる範囲が限られており多くは近視眼的だった ・Dreamerは、バリューネットワークとアクターネットワークでこの制限を克服 ・Dreamerは、計画と行動を切り離すことによりPlaNetが持つ高価な検索コストを回避 2.DreamerとPlaNetの違い 以下、ai.googleblog. […]

1 19