reinforcement learning

モデル

PWIL:敵対的トレーニングに依存しない摸倣学習(1/2)

1.PWIL:敵対的トレーニングに依存しない摸倣学習(1/2)まとめ ・強化学習で報酬関数を設計する事が困難なケースは模倣学習が代替手段となる ・最先端の摸倣学習は敵対的トレーニングに依存しているアルゴリズム的に不安定 ・PWILは敵対的ト...
入門/解説

オフライン強化学習における未解決の課題への取り組み(1/3)

1.オフライン強化学習における未解決の課題への取り組み(1/3)まとめ ・強化学習は医療など試行錯誤によるデータ収集が難しい現実世界には適用が難しい ・オフラインRLは実際に動かさなくても過去に収集されたデータを使って学習可能なため有望 ・...
入門/解説

RWRL:強化学習の課題に取り組むための一連のシミュレーション(2/2)

1.RWRL:強化学習の課題に取り組むための一連のシミュレーション(2/2)まとめ ・RWRLは現在のRLが抱える9つの異なる課題のうち8つに関連する実験を行う機能を提供 ・複数の課題と難易度レベルを組み合わせた環境でアルゴリズムをテストす...
入門/解説

RWRL:強化学習の課題に取り組むための一連のシミュレーション(1/2)

1.RWRL:強化学習の課題に取り組むための一連のシミュレーション(1/2)まとめ ・成功している強化学習はシミュレータが利用可能か動作環境が安価に利用可能である ・シミュレーターが利用できない環境で強化学習を実際の製品に展開する事は難しい...
入門/解説

人工知能とデータサイエンスの2019年の主な進展と2020年の予測Industry編(3/3)

1.人工知能とデータサイエンスの2019年の主な進展と2020年の予測Industry編(3/3)まとめ ・文章または音声による自然言語処理は「市民データサイエンティスト」のブームを促進 ・2020年は低消費電力で安価なデバイスにAIが展開...
学習手法

Duality:強化学習への新しいアプローチ

1.Duality:強化学習の新しいアプローチまとめ ・既存の強化学習手法であるQ-learningやactor-criticなどは計算が大変な部分は近似値を使っている ・双対性を利用する事により、近似が不要なもっとすっきりとした式に変換す...
入門/解説

AttentionAgent:重要度が低い情報を無視する強化学習エージェント(2/2)

1.AttentionAgent:重要度が低い情報を無視する強化学習エージェント(2/2)まとめ ・Attention Agentは主要タスクにとって重要ではない情報を無視するので小規模環境変化に対応可能 ・しかし、背景を猫動画に変更するよ...
学習手法

AttentionAgent:重要度が低い情報を無視する強化学習エージェント(1/2)

1.AttentionAgent:重要度が低い情報を無視する強化学習エージェント(1/2)まとめ ・人間は選択的注意の仕組みにより膨大な情報を圧縮し意思していると考えられている ・強化学習エージェントは逆に全視覚情報に加えて将来予測まで情報...
学習手法

DADS:教師なしで有用なスキルを発見する強化学習(2/2)

1.DADS:教師なしで有用なスキルを発見する強化学習(2/2)まとめ ・DADSは環境にとらわれないため、ロボット移動タスクにも操作タスクにも適用可能 ・スキルに追加のトレーニングが必要ないため、サンプル効率が非常に高く追加トレーニングが...
学習手法

DADS:教師なしで有用なスキルを発見する強化学習(1/2)

1.DADS:教師なしで有用なスキルを発見する強化学習(1/2)まとめ ・教師有り強化学習はシミュレーション環境を飛び出して現実世界の複雑な動作を学習できるようになった ・しかし、様々なタスク用に報酬関数を手動で設計する必要がありこれがボト...
モデル

深層強化学習の力でロボットが俊敏で知的な移動を実現(3/3)

1.深層強化学習の力でロボットが俊敏で知的な移動を実現(3/3)まとめ ・階層強化学習では高レベルポリシーと低レベルポリシーは同時にトレーニングされる ・トレーニング目的はロボットの軌道から得られる総報酬を最大化する事 ・学習完了後は高レベ...
学習手法

深層強化学習の力でロボットが俊敏で知的な移動を実現(2/3)

1.深層強化学習の力でロボットが俊敏で知的な移動を実現(2/3)まとめ ・ロボットにオフィス内を移動させる等の複雑なタスクは速度、方向、高さを複数回調整する必要がある ・従来は複雑なタスクを複数の階層的小タスクに分解することで解決していたが...