reinforcement learning

ロボット

Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(2/3)

1.Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(2/3)まとめ ・Braxは「シミュレーション時に分岐が発生しない」ことを保証する事で効率化を実現 ・計算が厳密に同じであるため複雑さを軽減でき、...
ロボット

Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(1/3)

1.Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(1/3)まとめ ・強化学習は単純なタスクでも習熟するために数百万から数十億のデータが必要になる ・大規模分散システムを使えば迅速に強化学習をトレー...
学習手法

SimGAN:敵対的強化学習を使い正確な物理シミュレータを構築(2/2)

1.SimGAN:敵対的強化学習を使い正確な物理シミュレータを構築(2/2)まとめ ・GANは現実世界の軌道と区別できない合成軌道を生成するためにも使用できる ・これによりシステム同定を手動ではなくGANを使用して実行する事ができる ・Si...
学習手法

HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(1/3)

1.HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(1/3)まとめ ・制御された環境では一元化されたプランナーを使えば複数ロボットが連携して動作可能 ・現実世界では独立したロボット同士で連携する場合は目標を互いに調整す...
モデル

自動進化する強化学習でDDQNを凌駕する(2/2)

1.自動進化する強化学習でDDQNを凌駕する(2/2)まとめ ・発見されたアルゴリズムの中でDQNRegとDQNClippedが優れたパフォーマンスを出した ・これらはDQNが一般的にQ値を過大評価してしまう事を各々の方法で回避している ・...
モデル

自動進化する強化学習でDDQNを凌駕する(1/2)

1.自動進化する強化学習でDDQNを凌駕する(1/2)まとめ ・強化学習の長期的で包括的な目標は様々な問題を解決できる単一の汎用学習アルゴリズムの設計 ・強化学習は多岐にわたるため、学習方法を学習して新しいRLを設計するメタ学習手法が有望 ...
ロボット

MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(3/3)

1.MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(3/3)まとめ ・MT-Optでデータ収集が容易になったがより広いタスクを学習させる事を検討した ・目標条件付き学習は「目...
ロボット

MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(2/3)

1.MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(2/3)まとめ ・大規模マルチタスクデータ収集システムのタスク間バランスを取りMT-Optを構成 ・MT-Optを使用する...
ロボット

MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(1/3)

1.MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(1/3)まとめ ・ロボットの自律運用を可能にするためには数千時間単位でロボットを動かす必要がある ・NLPにおける事前トレ...
学習手法

RCE:報酬関数が不要な強化学習(2/2)

1.RCE:報酬関数が不要な強化学習(2/2)まとめ ・自律エージェントに成功事例を提供する事でタスクを実行するように教える方法を提案 ・本手法では報酬関数の設計もエキスパートがデモして成功操作を見せる必要がなくなる ・ユーザーの能力の違い...
学習手法

RCE:報酬関数が不要な強化学習(1/2)

1.RCE:報酬関数が不要な強化学習(1/2)まとめ ・ロボット工学で使われる強化学習は望ましい行動を促すために報酬関数が必要になる ・しかし報酬関数の設定は非常に面倒で手間がかかり追加の設備が必要になるケースがある ・RCEは成功事例を示...
学習手法

PAIRED:3つのエージェントを使って強化学習の効率を向上(2/2)

1.PAIRED:3つのエージェントを使って強化学習の効率を向上(2/2)まとめ ・強化学習のシミュレーション環境を多様化して現実への転移を容易にする手法が求めらている ・トレーニング環境を自動的に作成する教師なし環境デザイン(UED)は1...