強化学習

AI関連その他

AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(2/3)

1.AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(2/3)まとめ・PRMのようなサンプリングベースのプランナーを使う事によって長距離ナビゲーションを実現できる・強化学習ベースのローカルプランナーがノード間を接続できるか...
学習手法

AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(1/3)

1.AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(1/3)まとめ・AutoMLの強化学習版であるAutoRLを使ってロボットを遠く離れた場所までお使いに行かせる研究・現在のロボットは近距離を安全に移動するためのローカル...
モデル

MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(3/3)

1.MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(3/3)まとめ・報酬が疎になる作業を学習させるためにカルバック・ライブラー情報量(KL)を利用している・カルバック・ライブラー情報量は、2つの異なる確率分布がどの程度異なるかを示す尺度...
学習手法

MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(2/3)

1.MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(2/3)まとめ・偶然成功した行動は強化学習エージェントが作業を一般化する際に有害な影響を与える・MeRLでは成功した行動の特徴に基づいて偶然の成功と意図的な成功を区別した補助的な報酬を...
入門/解説

MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(1/3)

1.MeRL:強化学習でまばらで仕様が曖昧な報酬に対応(1/3)まとめ・強化学習はアクションに対するフィードバック(報酬)が重要・報酬が疎であったり報酬に繋がる行動が不明では学習が困難・特に仕様が不明確な報酬は予想外の行動に繋がる可能性があ...
学習手法

PlaNet:画像入力から世界モデルを学ぶ強化学習(3/3)

1.PlaNet:画像入力から世界モデルを学ぶ強化学習(3/3)まとめ・PlaNetは一つのエージェントで6つの異なるタスクを行うように訓練する事ができた・比較的単純なタスクに対する学習は遅かったが複雑なタスクは素早く学習し高いレベルに達し...
学習手法

PlaNet:画像入力から世界モデルを学ぶ強化学習(2/3)

1.PlaNet:画像入力から世界モデルを学ぶ強化学習(2/3)まとめ・エージェントは特定の操作によってボールの位置やゴールまでの距離がどのように変化するか想像出来る・大量の計算が必要な画像作成を省略し将来の報酬を予測するだけでよいので高速...
学習手法

PlaNet:画像入力から世界モデルを学ぶ強化学習(1/3)

1.PlaNet:画像入力から世界モデルを学ぶ強化学習(1/3)まとめ・PlaNetはモデルベース(Model-based)強化学習であり世界モデルを学ぶ強化学習・世界モデルを学ぶと従来より少ないデータで効率的な学習を行う事ができる・Pla...
学習手法

AlphaStar:StarCraftIIでプロプレーヤーに勝った人工知能(3/3)

1.AlphaStar:StarCraftIIでプロプレーヤーに勝った人工知能(3/3)まとめ・AlphaStarはコンピュータ特有の優位性の利用は極力控えていた・操作量は人間のプロプレーヤー同等、操作遅延も同等であった・ミニマップを切り替...
学習手法

AlphaStar:StarCraftIIでプロプレーヤーに勝った人工知能(2/3)

1.AlphaStar:StarCraftIIでプロプレーヤーに勝った人工知能(2/3)まとめ・AlphaStarは単一の人工知能ではなく人工知能同士のリーグ戦を勝ちぬいた5選手から構成されていた・当初は人間のリプレイから学習し次段階では人...
学習手法

AlphaStar:StarCraftIIでプロプレーヤーに勝った人工知能(1/3)

1.AlphaStar:StarCraftIIでプロプレーヤーに勝った人工知能(1/3)まとめ・20年以上の歴史を持つゲームであるStarCraftIIはAIにとって困難なチャレンジと見なされ来た・不完全な情報と予期せぬ出来事に対処しつつ多...
モデル

2018年11月に発表されたAWSのAI関連の新機能

1.2018年11月に発表されたAWSのAI関連の新機能まとめ・機械学習演算用ハードウェアであるInferentiaチップを2019年リリース予定・強化学習で動作させる$399ドルのミニチュアカーDeepRacer・開発者がロボット工学アプ...