reinforcement learning

学習手法

深層強化学習の力でロボットが俊敏で知的な移動を実現(1/3)

1.深層強化学習の力でロボットが俊敏で知的な移動を実現(1/3)まとめ ・強化学習のサンプル効率の悪さは依然として多くのアルゴリズムにとって主要なボトルネック ・脚式ロボットのためのデータ効率の良い強化学習として効率的な学習方法を発表 ・必...
学習手法

深層強化学習を使って半導体チップの設計を自動化

1.深層強化学習を使って半導体チップの設計を自動化 ・機械学習に専用ハードウェアを使用する事が増えているがチップ設計に数年単位の時間がかかる ・チップ設計を強化学習に行わせて、過去の経験から学び、時間をかけて改善するアプローチを実現 ・これ...
入門/解説

無限に続く行動履歴を学習可能な強化学習のオフポリシー評価(2/2)

1.無限に続く行動履歴を学習可能な強化学習のオフポリシー評価(2/2)まとめ ・定常分布がわからなくても重みの分布がターゲットポリシーの分布が持つ属性を満たす確認すれば良い ・「トリッキー」な数学的手法を使い履歴データからターゲットポリシー...
入門/解説

無限に続く行動履歴を学習可能な強化学習のオフポリシー評価(1/2)

1.無限に続く行動履歴を学習可能な強化学習のオフポリシー評価(1/2)まとめ ・強化学習は広く使われているが過去の履歴データ、つまりオフポリシーで性能評価をする事は難しい ・履歴データを収集したエージェントと性能評価されるエージェントが異な...
学習手法

オフライン強化学習に関する楽観的な見解(2/2)

1.オフライン強化学習に関する楽観的な見解(2/2)まとめ ・教師あり学習のアンサンブル手法を応用してREMと言う新しい強化学習アルゴリズムを開発 ・REMはオフライン設定とオンライン設定で比較するとオフライン設定の方が高い性能を出せていた...
学習手法

動物の動きからロボットを俊敏に動かすコツを学ぶ

1.動物の動きからロボットを俊敏に動かすコツを学ぶまとめ ・歩いている動物の動画から制御ポリシーをトレーニングする強化学習フレームワークが発表 ・サンプル効率の高い潜在空間適応手法を使用して現実世界への転移を効率的に行っている ・人間による...
学習手法

SEED RLによる大規模強化学習(3/3)

1.SEED RLによる大規模強化学習(3/3)まとめ ・SEED RLが4,160CPUで達成する性能と同等な性能を出すにはIMPALAでは14,000CPUが必要となる ・DeepMindラボでは毎秒240万フレームを達成、これは、以前...
学習手法

SEED RLによる大規模強化学習(2/3)

1.SEED RLによる大規模強化学習(2/3)まとめ ・従来の強化学習アーキテクチャにはいくつかの欠点がありハードウェアの性能が生かせきれていない ・SEED RLアーキテクチャは欠点を解決するように設計されており規模を拡大して実行する事...
学習手法

SEED RLによる大規模強化学習(1/3)

1.SEED RLによる大規模強化学習(1/3)まとめ ・強化学習手法は単純なゲームでも学習するために更に多くのトレーニングが必要になってきている ・SEED RLは、数千のマシン上で規模を拡大して実行できる新しい強化学習エージェント ・推...
学習手法

Dreamer:長期視点で考える事が出来る強化学習(3/3)

1.Dreamer:長期視点で考える事が出来る強化学習(3/3)まとめ ・モデルベースのエージェントは500万フレーム未満、シミュレーション内の28時間で効率的に学習可能 ・モデルフリーのエージェントは学習が遅く1億フレーム、23日間に相当...
学習手法

Dreamer:長期視点で考える事が出来る強化学習(2/3)

1.Dreamer:長期視点で考える事が出来る強化学習(2/3)まとめ ・強力な世界モデルでさえ、正確に予測できる範囲が限られており多くは近視眼的だった ・Dreamerは、バリューネットワークとアクターネットワークでこの制限を克服 ・Dr...
モデル

Dreamer:長期視点で考える事が出来る強化学習(1/3)

1.Dreamer:長期視点で考える事が出来る強化学習(1/3)まとめ ・世界モデルを使用しない強化学習は学習に大量の試行錯誤と時間が必要なため実用性が制限される ・世界モデルを使用する強化学習もプランニングメカニズムがネックになり能力が制...