reinforcement learning

モデル

MGDT:41種のゲームを人間同等にプレイ可能なTransformer(1/2)

1.MGDT:41種のゲームを人間同等にプレイ可能なTransformer(1/2)まとめ ・現在の強化学習は様々な個別タスクの意思決定に秀でるが汎用性に関する研究は少ない ・自然言語、視覚、生成モデルの分野ではTransformerが活躍...
学習手法

Director:マネージャーの上に社長を配置して疎らな報酬に挑む(2/2)

1.Director:マネージャーの上に社長を配置して疎らな報酬に挑む(2/2)まとめ ・Directorは世界モデルに基づく2つの最先端アルゴリズムより高いスコアを出した ・必ずしも長期目線の探索を必要としてないタスクでも高いスコアを出せ...
学習手法

MLGO:強化学習を使ってコンパイラの最適化処理を最適化(1/2)

1.MLGO:強化学習を使ってコンパイラの最適化処理を最適化(1/2)まとめ ・コンパイラのコードの最適化はデータセンターやスマホアプリの運用コストを削減可能 ・コンパイラの進歩は続いているが最適化に関する複雑な経験則が改良の妨げになってい...
ロボット

脚式ロボットが学習時に転倒して破損しないようにする(3/3)

1.脚式ロボットが学習時に転倒して破損しないようにする(3/3)まとめ ・2脚バランスタスクでは2脚だけで最大4回ジャンプしてバランスを維持することができた ・実世界で自律的かつ安全にロボットが脚式運動スキルを学習できることが示唆された。 ...
ロボット

脚式ロボットが学習時に転倒して破損しないようにする(2/3)

1.脚式ロボットが学習時に転倒して破損しないようにする(2/3)まとめ ・ロボットを使い効率的歩行、キャットウォーク、2脚バランスタスクで実験を行った ・学習者ポリシーは安全回復ポリシーを発動する必要性を回避しながら学習できた ・安全トリガ...
ロボット

脚式ロボットが学習時に転倒して破損しないようにする(1/3)

1.脚式ロボットが学習時に転倒して破損しないようにする(1/3)まとめ ・脚式ロボットはは本質的に不安定であり学習中にロボットが転倒し破損する可能性がある ・仮想空間で学習させる事もできるが現実世界に転移学習する際に微妙な違いが問題を引き起...
ロボット

VFS:強化学習で長期目線が必要な行動を実現(2/2)

1.VFS:強化学習で長期目線が必要な行動を実現(2/2)まとめ ・各遷移に影響を与えその結果を予測するために必要な機能情報はVFS特徴表現内にある ・原理的には高レベルのエージェントがすべてのスキルを連鎖させる事が可能になる ・VFSは風...
モデル

VFS:強化学習で長期目線が必要な行動を実現(1/2)

1.VFS:強化学習で長期目線が必要な行動を実現(1/2)まとめ ・強化学習の進歩によりロボットは複雑なタスクを実行できるようになった ・しかし、可能なのは短期目線タスクで長期目線が必要なタスクは困難 ・VFSで長期目線を持たせると状態と行...
学習手法

JSRL:事前ポリシーを効率的に使用して強化学習をジャンプスタート(2/2)

1.JSRL:事前ポリシーを効率的に使用して強化学習をジャンプスタート(2/2)まとめ ・JSRLは任意の初期ガイドポリシーや微調整アルゴリズムと組み合わせて使用する事が可能 ・視覚ベースタスクでも他のすべての手法よりも高速に改善可能で最も...
学習手法

JSRL:事前ポリシーを効率的に使用して強化学習をジャンプスタート(1/2)

1.JSRL:事前ポリシーを効率的に使用して強化学習をジャンプスタート(1/2)まとめ ・強化学習は試行錯誤でタスクを実行するがゼロからポリシーを学習する事は難しい ・例えば複雑でゴールにどれだけ近づいているかを測定できないようなタスクの解...
学習手法

BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(2/2)

1.BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(2/2)まとめ ・定点観測位置保持を成功させるためには、長期視野で計画を処理する必要がある ・夜間飛行は物理的条件や太陽光発電が利用できないため別の困難さが加わる...
学習手法

BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(1/2)

1.BLE:成層圏に到達可能な高高度気球の操作をシミュレートする強化学習環境(1/2)まとめ ・機械学習の進歩の原動力となってきたのが、成果を測定可能なベンチマークテストの存在 ・高高度気球の制御という実世界の問題を扱う新しい強化学習用ベン...