deep reinforcement learning

学習手法

BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(1/2)

1.BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(1/2)まとめ ・機械学習の進歩の原動力となってきたのが、成果を測定可能なベンチマークテストの存在 ・高高度気球の制御という実世界の問題を扱う新しい強化学習用ベン...
学習手法

深層強化学習研究の計算コストの削減(2/2)

1.深層強化学習研究の計算コストの削減(2/2)まとめ ・従来の制御環境ではRainbowの論文と異なり分散RLは単体では性能向上に貢献しなかった ・Rainbowに採用された各アルゴリズムの貢献度は適用環境ごとに異なる可能性がある ・計算...
学習手法

深層強化学習研究の計算コストの削減(1/2)

1.深層強化学習研究の計算コストの削減(1/2)まとめ ・Rainbowは深層強化学習飛躍のきっかけとなったDQNに更に様々な改良を加えたアルゴリズム ・強化学習で論文掲載レベルの検証を行うためにはGCP換算で500万円の高いコストが必要 ...
学習手法

GO:グラフ最適化用強化学習(1/3)

1.GO:グラフ最適化用強化学習(1/3)まとめ ・大規模モデルは多様なアクセラレータが混在する環境でトレーニングされるようになってきた ・MLコンパイラは多くの複雑な最適化問題を解決する必要があるが手動設計には限界がある ・この制限を克服...
学習手法

Soft Actor-Critic:ロボット工学のための深層強化学習(2/2)

1.Soft Actor-Critic:ロボット工学のための深層強化学習(2/2)まとめ ・Soft Actor-Criticは深層強化学習を使いロボットが現実世界で学習する事を可能にする ・従来手法に比べて短時間で学習でき且つ想定外の事態...
学習手法

Soft Actor-Critic:ロボット工学のための深層強化学習(1/2)

1.Soft Actor-Critic:ロボット工学のための深層強化学習(1/2)まとめ ・Soft Actor-Criticは深層強化学習を使いロボットが現実世界で学習する事を可能にする ・従来手法に比べて短時間で学習でき且つ想定外の事態...