reinforcement learning

RLDS: 強化学習用データセットの生成と共有をやりやすくするツール群(2/2)

１．RLDS: 強化学習用データセットの生成と共有をやりやすくするツール群(2/2)まとめ・RLDSはEnvLoggerやRLDS CreatorなどのツールでRL用データの収集を楽にする・RLDSはデータセット共有ライブラリであるTF...

2021.12.23

データセット学習手法

１．RLDS: 強化学習用データセットの生成と共有をやりやすくするツール群(1/2)まとめ・強化学習アルゴリズムの多くはエージェントが環境と大量に相互作用する学習データが必要・他で収集されたデータセットを再利用する事もできるが仕様がバラ...

2021.12.22

データセット学習手法

１．視覚を聴覚で補うような脳の感覚置換能力を実現する強化学習(2/2)まとめ・順列不変のニューラルネットワークは、未定義で変化する観測空間を扱うことが可能・冗長な情報やノイズの多い情報を含む観測結果や破損した不完全な観測結果に対しても堅...

2021.12.10

学習手法

１．視覚を聴覚で補うような脳の感覚置換能力を実現する強化学習(1/2)まとめ・人間は触覚を使って視覚を補う等の驚くべき感覚置換能力を持つが人工知能はこれを持たない・強化学習は入力データサイズが固定されている事や各要素が意味を持つ事を想定...

2021.12.09

学習手法

１．RLiable: 強化学習における信頼性の高い性能評価指標(2/2)まとめ・同じ実験を他で繰り返した場合の集約指標を予測する層別ブートストラップ信頼区間を提唱・パフォーマンスプロファイルによりアルゴリズム間の定性的な比較が一目瞭然と...

2021.12.06

基礎理論

１．RLiable: 強化学習における信頼性の高い性能評価指標(1/2)まとめ・平均値や中央値などを評価指標にしたままでは強化学習の性能を見誤る可能性がある・より多く試行して性能評価する事は限られた計算機資源の観点から現実的ではない・...

2021.12.05

基礎理論

１．取り返しのつかない行動を避ける可逆性を意識した自己教師型強化学習(3/3)まとめ・時間的順序をモデル化して行動可逆性を予測し探索と制御を効率化出来る事を示した・自己教師型であるため行動の可逆性に関する事前知識を必要とせず様々な環境に...

2021.11.17

学習手法

１．取り返しのつかない行動を避ける可逆性を意識した自己教師型強化学習(2/3)まとめ・強化学習に可逆性を統合する手法として探索のRAEと制御のRACを提案した・RAEとRACの重要な違いはRAEは可逆的な動作を推奨するだけで禁止していな...

2021.11.16

学習手法

１．取り返しのつかない行動を避ける可逆性を意識した自己教師型強化学習(1/3)まとめ・強化学習エージェントは試行錯誤を繰り返するで元に戻せない行動をしてしまう事がある・現実のロボットが部品破損につながる可能性のあるアクションを実行するこ...

2021.11.15

学習手法

１．PSM：行動の類似性に着目して強化学習の一般化性能を改善(2/2)まとめ・本研究は効果的な特徴表現を学習するために強化学習で固有構造を活用する利点を示した・ポリシー類似性指標(PSM)と対照指標埋め込み(CME)の提唱によって強化学...

2021.10.05

学習手法

１．PSM：行動の類似性に着目して強化学習の一般化性能を改善(1/2)まとめ・強化学習は意味的に同等なタスク間であっても新タスクへの応用が困難・障害物を飛び越えるタスクでは初見の場所に設置された障害物に苦労する・タスク間で類似している...

2021.10.04

学習手法

１．Brax：Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(3/3)まとめ・BraxはCPUだけで実行しても従来の一般的な環境に比べて1桁以上高速に動作する・Braxは高速で規模拡大可能な強化学習とロボ...

2021.07.27

ロボット学習手法