入門/解説 Google Research:2019年の振り返りと2020年以降に向けて(5/8) 1.Google Research:2019年の振り返りと2020年以降に向けて(5/8)まとめ ・2019年はニューラルネットワークのトレーニングにどのような力学が働くのか特性を理解を目指した ・AutoMLの研究も継続し、既存モデルの改... 2020.01.17 入門/解説
入門/解説 RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(3/3) 1.RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(3/3)まとめ ・RecSimは強化学習/推奨アルゴリズムを調査するために十分な機能を持つが拡張機能も存在 ・「sim-to-real」ギャップの部分的解... 2019.11.27 入門/解説
入門/解説 RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(2/3) 1.RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(2/3)まとめ ・ほとんどの推薦システムは静的データセットを使用しておりユーザと実際に対話しているわけではい ・また推薦ポリシーそのものがユーザーの行動に... 2019.11.26 入門/解説
入門/解説 RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(1/3) 1.RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(1/3)まとめ ・ユーザーニーズに最適に対応するためにユーザーと対話を行う推薦システム、CIRが有望視されている ・しかし、CIRはユーザと対話するアルゴ... 2019.11.25 入門/解説
学習手法 強化学習を使って量子計算を改善(2/2) 1.強化学習を使って量子計算を改善(2/2)まとめ ・次のステップとして量子制御コスト関数をオンポリシーRLを使って最適化した ・オンポリシーRLとオフポリシーRLの違いは制御ポリシーが制御コストとは独立して表されること ・新しいフレームワ... 2019.10.08 学習手法
モデル 強化学習を使って量子計算を改善(1/2) 1.強化学習を使って量子計算を改善(1/2)まとめ ・量子コンピュータの構成要素である量子ビットは周囲の微量なエネルギーの影響を受ける ・更には制御用ツールによってもたらされる干渉などの影響も受けて誤差が拡大してしまう ・強化学習を使用して... 2019.10.07 モデル
モデル Off-Policy Classification:強化学習モデルを選別する新手法(2/2) 1.Off-Policy Classification:強化学習モデルを選別する新手法(2/2)まとめ ・OPCはSim-to-Realテクニックによって訓練されたモデルの評価に対しても有効であった ・OPCのスコアと現実世界のタスクの成功... 2019.06.23 モデル
モデル Off-Policy Classification:強化学習モデルを選別する新手法(1/2) 1.Off-Policy Classification:強化学習モデルを選別する新手法(1/2)まとめ ・完全ポリシー外強化学習は過去に収集されたデータのみを使って学習するタイプの強化学習 ・物理的なロボットがなくてもモデルをトレーニングが... 2019.06.22 モデル
入門/解説 Google Research Football:新しい強化学習環境(2/2) 1.Google Research Football:新しい強化学習環境(2/2)まとめ ・Football Academyでは様々なレベルの難易度を持つ多様なシナリオのセットが提供されている ・Football Academyを使えばFo... 2019.06.11 入門/解説
学習手法 Google Research Football:新しい強化学習環境(1/2) 1.Google Research Football:新しい強化学習環境(1/2)まとめ ・Google Research Footballは強化学習エージェントにサッカーをプレイさせる事ができる強化学習環境 ・短期視点、長期視点、ボールの... 2019.06.10 学習手法
モデル SimPLe:ビデオモデルを用いてポリシー学習をシミュレート(1/2) 1.SimPLe:ビデオモデルを用いてポリシー学習をシミュレート(1/2)まとめ ・現在の強化学習の問題点の1つは人間に比べて学習に非常に時間がかかる事である ・人間が効率的に学習できる理由は世界モデルを持っているからと推測されている ・モ... 2019.03.28 モデル
ロボット AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(3/3) 1.AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(3/3)まとめ ・PRM-RLにAutoRLでトレーニングしたローカルプランナーを組み合わせる等多数の改良をした ・SLAMマップでsim2realギャップの解消に成功... 2019.03.06 ロボット