reinforcement learning

Brax：Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(2/3)

１．Brax：Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(2/3)まとめ・Braxは「シミュレーション時に分岐が発生しない」ことを保証する事で効率化を実現・計算が厳密に同じであるため複雑さを軽減でき、...

2021.07.26

ロボット学習手法

１．Brax：Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(1/3)まとめ・強化学習は単純なタスクでも習熟するために数百万から数十億のデータが必要になる・大規模分散システムを使えば迅速に強化学習をトレー...

2021.07.25

ロボット学習手法

１．SimGAN：敵対的強化学習を使い正確な物理シミュレータを構築(2/2)まとめ・GANは現実世界の軌道と区別できない合成軌道を生成するためにも使用できる・これによりシステム同定を手動ではなくGANを使用して実行する事ができる・Si...

2021.06.26

学習手法

１．HPP：ロボット同士が待ち合わせできるようにするモデルベース強化学習(1/3)まとめ・制御された環境では一元化されたプランナーを使えば複数ロボットが連携して動作可能・現実世界では独立したロボット同士で連携する場合は目標を互いに調整す...

2021.05.07

学習手法

１．自動進化する強化学習でDDQNを凌駕する(2/2)まとめ・発見されたアルゴリズムの中でDQNRegとDQNClippedが優れたパフォーマンスを出した・これらはDQNが一般的にQ値を過大評価してしまう事を各々の方法で回避している・...

2021.05.02

モデル学習手法

１．自動進化する強化学習でDDQNを凌駕する(1/2)まとめ・強化学習の長期的で包括的な目標は様々な問題を解決できる単一の汎用学習アルゴリズムの設計・強化学習は多岐にわたるため、学習方法を学習して新しいRLを設計するメタ学習手法が有望 ...

2021.05.01

モデル学習手法

１．MT-OptとActionable Models：複数ロボットで自動データ収集を行って初見タスクを実行可能にする(3/3)まとめ・MT-Optでデータ収集が容易になったがより広いタスクを学習させる事を検討した・目標条件付き学習は「目...

2021.04.27

ロボット学習手法

１．MT-OptとActionable Models：複数ロボットで自動データ収集を行って初見タスクを実行可能にする(2/3)まとめ・大規模マルチタスクデータ収集システムのタスク間バランスを取りMT-Optを構成・MT-Optを使用する...

2021.04.26

ロボット学習手法

１．MT-OptとActionable Models：複数ロボットで自動データ収集を行って初見タスクを実行可能にする(1/3)まとめ・ロボットの自律運用を可能にするためには数千時間単位でロボットを動かす必要がある・NLPにおける事前トレ...

2021.04.25

ロボット学習手法

１．RCE：報酬関数が不要な強化学習(2/2)まとめ・自律エージェントに成功事例を提供する事でタスクを実行するように教える方法を提案・本手法では報酬関数の設計もエキスパートがデモして成功操作を見せる必要がなくなる・ユーザーの能力の違い...

2021.04.17

学習手法

１．RCE：報酬関数が不要な強化学習(1/2)まとめ・ロボット工学で使われる強化学習は望ましい行動を促すために報酬関数が必要になる・しかし報酬関数の設定は非常に面倒で手間がかかり追加の設備が必要になるケースがある・RCEは成功事例を示...

2021.04.16

学習手法

１．PAIRED：３つのエージェントを使って強化学習の効率を向上(2/2)まとめ・強化学習のシミュレーション環境を多様化して現実への転移を容易にする手法が求めらている・トレーニング環境を自動的に作成する教師なし環境デザイン(UED)は１...

2021.03.18

学習手法