強化学習

アプリケーション

Menger:大規模な分散型強化学習(2/3)

1.Menger:大規模な分散型強化学習(2/3)まとめ ・キャッシュにより行為者から受け取る多数のリクエストと学習者の作業のバランスを取った ・キャッシュは更新要求処理する学習者の負荷だけでなく行為者の平均読み取り遅延も軽減 ・高スループ...
アプリケーション

Menger:大規模な分散型強化学習(1/3)

1.Menger:大規模な分散型強化学習(1/3)まとめ ・RLとはデータ収集とトレーニングのループだが規模拡大すると反復処理が追いつかなくなる ・Mengerは大規模な分散RLインフラであり複数クラスタにより規模拡大が可能 ・TPUを使用...
モデル

PWIL:敵対的トレーニングに依存しない摸倣学習(2/2)

1.PWIL:敵対的トレーニングに依存しない摸倣学習(2/2)まとめ ・PWILは敵対的手法でないためエージェントとエキスパートを直接類似させる事が可能 ・最先端の摸倣学習は敵対的トレーニングに依存しているアルゴリズム的に不安定 ・PWIL...
モデル

PWIL:敵対的トレーニングに依存しない摸倣学習(1/2)

1.PWIL:敵対的トレーニングに依存しない摸倣学習(1/2)まとめ ・強化学習で報酬関数を設計する事が困難なケースは模倣学習が代替手段となる ・最先端の摸倣学習は敵対的トレーニングに依存しているアルゴリズム的に不安定 ・PWILは敵対的ト...
学習手法

オフライン強化学習における未解決の課題への取り組み(3/3)

1.オフライン強化学習における未解決の課題への取り組み(3/3)まとめ ・オフラインRLを改善するためには履歴データにない行動を学習する必要がある ・既存手法は履歴データにない行動を過度に過大評価してしまう問題があった ・基本的に悲観的な予...
学習手法

オフライン強化学習における未解決の課題への取り組み(2/3)

1.オフライン強化学習における未解決の課題への取り組み(2/3)まとめ ・D4RLは現実的なアプリケーションを念頭に作られたベンチマークである事が特徴 ・タスクの目的と違う目的を実行した記録から学習する能力などが試される ・タスクと標準化さ...
入門/解説

オフライン強化学習における未解決の課題への取り組み(1/3)

1.オフライン強化学習における未解決の課題への取り組み(1/3)まとめ ・強化学習は医療など試行錯誤によるデータ収集が難しい現実世界には適用が難しい ・オフラインRLは実際に動かさなくても過去に収集されたデータを使って学習可能なため有望 ・...
入門/解説

RWRL:強化学習の課題に取り組むための一連のシミュレーション(2/2)

1.RWRL:強化学習の課題に取り組むための一連のシミュレーション(2/2)まとめ ・RWRLは現在のRLが抱える9つの異なる課題のうち8つに関連する実験を行う機能を提供 ・複数の課題と難易度レベルを組み合わせた環境でアルゴリズムをテストす...
入門/解説

RWRL:強化学習の課題に取り組むための一連のシミュレーション(1/2)

1.RWRL:強化学習の課題に取り組むための一連のシミュレーション(1/2)まとめ ・成功している強化学習はシミュレータが利用可能か動作環境が安価に利用可能である ・シミュレーターが利用できない環境で強化学習を実際の製品に展開する事は難しい...
入門/解説

人工知能とデータサイエンスの2019年の主な進展と2020年の予測Industry編(3/3)

1.人工知能とデータサイエンスの2019年の主な進展と2020年の予測Industry編(3/3)まとめ ・文章または音声による自然言語処理は「市民データサイエンティスト」のブームを促進 ・2020年は低消費電力で安価なデバイスにAIが展開...
入門/解説

Seq2act:機械学習でスマホ操作を人間の代わりに実行する(2/2)

1.Seq2act:機械学習でスマホ操作を人間の代わりに実行する(2/2)まとめ ・モデルをトレーニング、および評価するための3つの新しいデータセットを構築して公開 ・「アクションフレーズの抽出」と「言語の割り当て」に分解してモデルパフォー...
学習手法

Duality:強化学習への新しいアプローチ

1.Duality:強化学習の新しいアプローチまとめ ・既存の強化学習手法であるQ-learningやactor-criticなどは計算が大変な部分は近似値を使っている ・双対性を利用する事により、近似が不要なもっとすっきりとした式に変換す...