学習手法

学習手法

HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(2/3)

1.HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(2/3)まとめ ・システムは予測、計画、および制御の3つのモジュールから構成されている ・各エージェントは自分自身の動き用と他のエージェント用の予測モデルを学習 ・予...
学習手法

HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(1/3)

1.HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(1/3)まとめ ・制御された環境では一元化されたプランナーを使えば複数ロボットが連携して動作可能 ・現実世界では独立したロボット同士で連携する場合は目標を互いに調整す...
モデル

自動進化する強化学習でDDQNを凌駕する(2/2)

1.自動進化する強化学習でDDQNを凌駕する(2/2)まとめ ・発見されたアルゴリズムの中でDQNRegとDQNClippedが優れたパフォーマンスを出した ・これらはDQNが一般的にQ値を過大評価してしまう事を各々の方法で回避している ・...
モデル

自動進化する強化学習でDDQNを凌駕する(1/2)

1.自動進化する強化学習でDDQNを凌駕する(1/2)まとめ ・強化学習の長期的で包括的な目標は様々な問題を解決できる単一の汎用学習アルゴリズムの設計 ・強化学習は多岐にわたるため、学習方法を学習して新しいRLを設計するメタ学習手法が有望 ...
モデル

MaX-DeepLab:デュアルパストランスフォーマーを使ってパノプティックセグメンテーションを直接実行(2/2)

1.MaX-DeepLab:デュアルパストランスフォーマーを使ってパノプティックセグメンテーションを直接実行(2/2)まとめ ・MaX-DeepLabはパノプティコンセグメンテーションを直接トレーニングできる初の手法 ・マスクとクラスを直接...
モデル

MaX-DeepLab:デュアルパストランスフォーマーを使ってパノプティックセグメンテーションを直接実行(1/2)

1.MaX-DeepLab:デュアルパストランスフォーマーを使ってパノプティックセグメンテーションを直接実行(1/2)まとめ ・パノプティックはセマンティックとインスタンスの両セグメンテーションを統合したもの ・従来の最高手法は画像から直接...
ロボット

MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(3/3)

1.MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(3/3)まとめ ・MT-Optでデータ収集が容易になったがより広いタスクを学習させる事を検討した ・目標条件付き学習は「目...
ロボット

MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(2/3)

1.MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(2/3)まとめ ・大規模マルチタスクデータ収集システムのタスク間バランスを取りMT-Optを構成 ・MT-Optを使用する...
ロボット

MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(1/3)

1.MT-OptとActionable Models:複数ロボットで自動データ収集を行って初見タスクを実行可能にする(1/3)まとめ ・ロボットの自律運用を可能にするためには数千時間単位でロボットを動かす必要がある ・NLPにおける事前トレ...
学習手法

RCE:報酬関数が不要な強化学習(2/2)

1.RCE:報酬関数が不要な強化学習(2/2)まとめ ・自律エージェントに成功事例を提供する事でタスクを実行するように教える方法を提案 ・本手法では報酬関数の設計もエキスパートがデモして成功操作を見せる必要がなくなる ・ユーザーの能力の違い...
学習手法

RCE:報酬関数が不要な強化学習(1/2)

1.RCE:報酬関数が不要な強化学習(1/2)まとめ ・ロボット工学で使われる強化学習は望ましい行動を促すために報酬関数が必要になる ・しかし報酬関数の設定は非常に面倒で手間がかかり追加の設備が必要になるケースがある ・RCEは成功事例を示...
モデル

幅広い内容の質問に長文で回答可能な質問回答システムの進歩と課題(2/2)

1.幅広い内容の質問に長文で回答可能な質問回答システムの進歩と課題(2/2)まとめ ・Routing TransformersとREALMに基づいた質問応答システムは従来のスコアを更新 ・しかし既存のベンチマークには進歩を妨げるいくつかの問...