reinforcement learning

AI関連その他

AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(2/3)

1.AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(2/3)まとめ ・PRMのようなサンプリングベースのプランナーを使う事によって長距離ナビゲーションを実現できる ・強化学習ベースのローカルプランナーがノード間を接続でき...
学習手法

AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(1/3)

1.AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(1/3)まとめ ・AutoMLの強化学習版であるAutoRLを使ってロボットを遠く離れた場所までお使いに行かせる研究 ・現在のロボットは近距離を安全に移動するためのロー...
モデル

MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(3/3)

1.MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(3/3)まとめ ・報酬が疎になる作業を学習させるためにカルバック・ライブラー情報量(KL)を利用している ・カルバック・ライブラー情報量は、2つの異なる確率分布がどの程度異なるかを示す...
学習手法

MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(2/3)

1.MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(2/3)まとめ ・偶然成功した行動は強化学習エージェントが作業を一般化する際に有害な影響を与える ・MeRLでは成功した行動の特徴に基づいて偶然の成功と意図的な成功を区別した補助的な報...
入門/解説

MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(1/3)

1.MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(1/3)まとめ ・強化学習はアクションに対するフィードバック(報酬)が重要 ・報酬が疎であったり報酬に繋がる行動が不明では学習が困難 ・特に仕様が不明確な報酬は予想外の行動に繋がる可能...
学習手法

PlaNet:画像入力から世界モデルを学ぶ強化学習(3/3)

1.PlaNet:画像入力から世界モデルを学ぶ強化学習(3/3)まとめ ・PlaNetは一つのエージェントで6つの異なるタスクを行うように訓練する事ができた ・比較的単純なタスクに対する学習は遅かったが複雑なタスクは素早く学習し高いレベルに...
学習手法

PlaNet:画像入力から世界モデルを学ぶ強化学習(2/3)

1.PlaNet:画像入力から世界モデルを学ぶ強化学習(2/3)まとめ ・エージェントは特定の操作によってボールの位置やゴールまでの距離がどのように変化するか想像出来る ・大量の計算が必要な画像作成を省略し将来の報酬を予測するだけでよいので...
学習手法

PlaNet:画像入力から世界モデルを学ぶ強化学習(1/3)

1.PlaNet:画像入力から世界モデルを学ぶ強化学習(1/3)まとめ ・PlaNetはモデルベース(Model-based)強化学習であり世界モデルを学ぶ強化学習 ・世界モデルを学ぶと従来より少ないデータで効率的な学習を行う事ができる ・...
学習手法

AlphaStar:StarCraftIIでプロプレーヤーに勝った人工知能(3/3)

1.AlphaStar:StarCraftIIでプロプレーヤーに勝った人工知能(3/3)まとめ ・AlphaStarはコンピュータ特有の優位性の利用は極力控えていた ・操作量は人間のプロプレーヤー同等、操作遅延も同等であった ・ミニマップを...
学習手法

AlphaStar:StarCraftIIでプロプレーヤーに勝った人工知能(1/3)

1.AlphaStar:StarCraftIIでプロプレーヤーに勝った人工知能(1/3)まとめ ・20年以上の歴史を持つゲームであるStarCraftIIはAIにとって困難なチャレンジと見なされ来た ・不完全な情報と予期せぬ出来事に対処しつ...
入門/解説

Google AIプリンストン研究所で行われる現在および将来の研究(2/2)

1.Google AIプリンストン研究所で行われる現在および将来の研究(2/2)まとめ ・オンライン学習からヒントを得て強化学習の枠組みを広げる研究も行われている ・線形動的システムの推定と制御のためのスペクトルフィルタリングのアルゴリズム...
モデル

Google AIプリンストン研究所で行われる現在および将来の研究(1/2)

1.Google AIプリンストン研究所で行われる現在および将来の研究(1/2)まとめ ・来年、プリンストン大学の側にGoogleが新しく研究所を開設予定 ・新しい研究所では大規模機械学習の最適化や制御理論および強化学習が注力される ・大規...