imitation learning

ロボット

ロボットが地形を見て適切な歩き方を選択できるようになる(1/2)

1.ロボットが地形を見て適切な歩き方を選択できるようになる(1/2)まとめ ・4足歩行ロボットの能力は大幅に向上したが不整地を対象とした研究は少ない ・不整地では地形特性の推定が重要だが既存の知覚運動システムでは困難 ・階層的な学習フレーム...
ロボット

BC-Z:ロボットは完全に新しい作業を指示に従って実行できるようになれるのか?(2/2)

1.BC-Z:ロボットは完全に新しい作業を指示に従って実行できるようになれるのか?(2/2)まとめ ・模倣学習の拡張でロボットが未経験の新しいタスクに対応できるようになる可能性を示した ・言語モデルが学習した概念同士の関連がロボットに柔軟性...
ロボット

BC-Z:ロボットは完全に新しい作業を指示に従って実行できるようになれるのか?(1/2)

1.BC-Z:ロボットは完全に新しい作業を指示に従って実行できるようになれるのか?(1/2)まとめ ・既存のロボット工学は新しい対象やタスク、目標に汎化できるようにする研究が多い ・指示を元に全く新しいタスクをロボットが実行できるようになる...
ロボット

Implicit BC:ロボットが優柔不断な行動を学習しないようにする(1/2)

1.Implicit BC:ロボットが優柔不断な行動を学習しないようにする(1/2)まとめ ・ロボットは複雑な行動を模倣しようとしたときに優柔不断になる事がある ・決断力を向上させるため離散化された行動空間を使用する事が多いが欠点がある ・...
アプリケーション

Falken:摸倣学習を使用して複雑なゲームを効率的にデバッグ(2/2)

1.Falken:摸倣学習を使用して複雑なゲームを効率的にデバッグ(2/2)まとめ ・ゲーム開発者は使用するAPIの組み合わせからどのモデルを選択すべきかわかる ・FPS、TPS、レーシング、シューティングゲームなどで制御スキームをモデリン...
アプリケーション

Falken:摸倣学習を使用して複雑なゲームを効率的にデバッグ(1/2)

1.Falken:摸倣学習を使用して複雑なゲームを効率的にデバッグ(1/2)まとめ ・機械学習はゲーム開発に大きな影響を与える可能性があるが実務に応用はまだ難しい ・ゲーム開発者がゲームテストエージェントを迅速かつ効率的にトレーニングする手...
モデル

PWIL:敵対的トレーニングに依存しない摸倣学習(2/2)

1.PWIL:敵対的トレーニングに依存しない摸倣学習(2/2)まとめ ・PWILは敵対的手法でないためエージェントとエキスパートを直接類似させる事が可能 ・最先端の摸倣学習は敵対的トレーニングに依存しているアルゴリズム的に不安定 ・PWIL...
モデル

PWIL:敵対的トレーニングに依存しない摸倣学習(1/2)

1.PWIL:敵対的トレーニングに依存しない摸倣学習(1/2)まとめ ・強化学習で報酬関数を設計する事が困難なケースは模倣学習が代替手段となる ・最先端の摸倣学習は敵対的トレーニングに依存しているアルゴリズム的に不安定 ・PWILは敵対的ト...