強化学習

学習手法

JSRL:事前ポリシーを効率的に使用して強化学習をジャンプスタート(2/2)

1.JSRL:事前ポリシーを効率的に使用して強化学習をジャンプスタート(2/2)まとめ ・JSRLは任意の初期ガイドポリシーや微調整アルゴリズムと組み合わせて使用する事が可能 ・視覚ベースタスクでも他のすべての手法よりも高速に改善可能で最も...
学習手法

JSRL:事前ポリシーを効率的に使用して強化学習をジャンプスタート(1/2)

1.JSRL:事前ポリシーを効率的に使用して強化学習をジャンプスタート(1/2)まとめ ・強化学習は試行錯誤でタスクを実行するがゼロからポリシーを学習する事は難しい ・例えば複雑でゴールにどれだけ近づいているかを測定できないようなタスクの解...
学習手法

視覚を聴覚で補うような脳の感覚置換能力を実現する強化学習(2/2)

1.視覚を聴覚で補うような脳の感覚置換能力を実現する強化学習(2/2)まとめ ・順列不変のニューラルネットワークは、未定義で変化する観測空間を扱うことが可能 ・冗長な情報やノイズの多い情報を含む観測結果や破損した不完全な観測結果に対しても堅...
学習手法

視覚を聴覚で補うような脳の感覚置換能力を実現する強化学習(1/2)

1.視覚を聴覚で補うような脳の感覚置換能力を実現する強化学習(1/2)まとめ ・人間は触覚を使って視覚を補う等の驚くべき感覚置換能力を持つが人工知能はこれを持たない ・強化学習は入力データサイズが固定されている事や各要素が意味を持つ事を想定...
基礎理論

RLiable: 強化学習における信頼性の高い性能評価指標(2/2)

1.RLiable: 強化学習における信頼性の高い性能評価指標(2/2)まとめ ・同じ実験を他で繰り返した場合の集約指標を予測する層別ブートストラップ信頼区間を提唱 ・パフォーマンスプロファイルによりアルゴリズム間の定性的な比較が一目瞭然と...
基礎理論

RLiable: 強化学習における信頼性の高い性能評価指標(1/2)

1.RLiable: 強化学習における信頼性の高い性能評価指標(1/2)まとめ ・平均値や中央値などを評価指標にしたままでは強化学習の性能を見誤る可能性がある ・より多く試行して性能評価する事は限られた計算機資源の観点から現実的ではない ・...
学習手法

取り返しのつかない行動を避ける可逆性を意識した自己教師型強化学習(3/3)

1.取り返しのつかない行動を避ける可逆性を意識した自己教師型強化学習(3/3)まとめ ・時間的順序をモデル化して行動可逆性を予測し探索と制御を効率化出来る事を示した ・自己教師型であるため行動の可逆性に関する事前知識を必要とせず様々な環境に...
学習手法

取り返しのつかない行動を避ける可逆性を意識した自己教師型強化学習(2/3)

1.取り返しのつかない行動を避ける可逆性を意識した自己教師型強化学習(2/3)まとめ ・強化学習に可逆性を統合する手法として探索のRAEと制御のRACを提案した ・RAEとRACの重要な違いはRAEは可逆的な動作を推奨するだけで禁止していな...
学習手法

取り返しのつかない行動を避ける可逆性を意識した自己教師型強化学習(1/3)

1.取り返しのつかない行動を避ける可逆性を意識した自己教師型強化学習(1/3)まとめ ・強化学習エージェントは試行錯誤を繰り返するで元に戻せない行動をしてしまう事がある ・現実のロボットが部品破損につながる可能性のあるアクションを実行するこ...
学習手法

PSM:行動の類似性に着目して強化学習の一般化性能を改善(2/2)

1.PSM:行動の類似性に着目して強化学習の一般化性能を改善(2/2)まとめ ・本研究は効果的な特徴表現を学習するために強化学習で固有構造を活用する利点を示した ・ポリシー類似性指標(PSM)と対照指標埋め込み(CME)の提唱によって強化学...
学習手法

PSM:行動の類似性に着目して強化学習の一般化性能を改善(1/2)

1.PSM:行動の類似性に着目して強化学習の一般化性能を改善(1/2)まとめ ・強化学習は意味的に同等なタスク間であっても新タスクへの応用が困難 ・障害物を飛び越えるタスクでは初見の場所に設置された障害物に苦労する ・タスク間で類似している...
モデル

Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(2/2)

1.Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(2/2)まとめ ・Pathdreamerはベースラインと比較して成功率を10%高くする事ができる ・現実世界を実際に移動するエージェントより成功率は低いが時間と...