強化学習

学習手法

HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(2/3)

1.HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(2/3)まとめ・システムは予測、計画、および制御の3つのモジュールから構成されている・各エージェントは自分自身の動き用と他のエージェント用の予測モデルを学習・予測を使...
学習手法

HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(1/3)

1.HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(1/3)まとめ・制御された環境では一元化されたプランナーを使えば複数ロボットが連携して動作可能・現実世界では独立したロボット同士で連携する場合は目標を互いに調整する必...
モデル

自動進化する強化学習でDDQNを凌駕する(2/2)

1.自動進化する強化学習でDDQNを凌駕する(2/2)まとめ・発見されたアルゴリズムの中でDQNRegとDQNClippedが優れたパフォーマンスを出した・これらはDQNが一般的にQ値を過大評価してしまう事を各々の方法で回避している・進化の...
モデル

自動進化する強化学習でDDQNを凌駕する(1/2)

1.自動進化する強化学習でDDQNを凌駕する(1/2)まとめ・強化学習の長期的で包括的な目標は様々な問題を解決できる単一の汎用学習アルゴリズムの設計・強化学習は多岐にわたるため、学習方法を学習して新しいRLを設計するメタ学習手法が有望・グラ...
モデル

2021年時点の各分野における最先端の機械学習モデルの紹介

1.2021年時点の各分野における最先端の機械学習モデルの紹介まとめ・未知の分野で作業を始める時、現時点の最先端モデルを調べるのは時間がかかる・各MLタスクに最適なモデルをリスト化してまとめておくと手間がかなり省ける・Kaggleのコンテス...
ロボット

MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(3/3)

1.MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(3/3)まとめ・MT-Optでデータ収集が容易になったがより広いタスクを学習させる事を検討した・目標条件付き学習は「目の前...
ロボット

MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(1/3)

1.MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(1/3)まとめ・ロボットの自律運用を可能にするためには数千時間単位でロボットを動かす必要がある・NLPにおける事前トレーニ...
学習手法

RCE:報酬関数が不要な強化学習(2/2)

1.RCE:報酬関数が不要な強化学習(2/2)まとめ・自律エージェントに成功事例を提供する事でタスクを実行するように教える方法を提案・本手法では報酬関数の設計もエキスパートがデモして成功操作を見せる必要がなくなる・ユーザーの能力の違いに影響...
学習手法

RCE:報酬関数が不要な強化学習(1/2)

1.RCE:報酬関数が不要な強化学習(1/2)まとめ・ロボット工学で使われる強化学習は望ましい行動を促すために報酬関数が必要になる・しかし報酬関数の設定は非常に面倒で手間がかかり追加の設備が必要になるケースがある・RCEは成功事例を示す事で...
基礎理論

転移学習とは何か?

1.転移学習とは何か?・ディープラーニングは大量のデータと計算機能力を必要とするためハードルが高い・転移学習は既に学習済みのモデルをベースにして学習をさせるので効率が向上する・転移学習によりディープラーニングトレーニング時のデータや計算量が...
学習手法

PAIRED:3つのエージェントを使って強化学習の効率を向上(2/2)

1.PAIRED:3つのエージェントを使って強化学習の効率を向上(2/2)まとめ・強化学習のシミュレーション環境を多様化して現実への転移を容易にする手法が求めらている・トレーニング環境を自動的に作成する教師なし環境デザイン(UED)は1つの...
学習手法

PAIRED:3つのエージェントを使って強化学習の効率を向上(1/2)

1.PAIRED:3つのエージェントを使って強化学習の効率を向上(1/2)まとめ・強化学習でシミュレートされたトレーニング環境を利用するケースが近年増加している・シミュレート環境の弱点は作成される環境が多様性を欠く事であり環境の自動構築が必...