reinforcement learning

入門/解説

強化学習における好奇心報酬とぐずぐず先延ばしの罠(2/2)

1.強化学習における好奇心報酬とぐずぐず先延ばしの罠(2/2)まとめ ・強化学習は飴と鞭で人工知能を学習させるが飴も鞭もほとんど発生しない世界では学習できない ・好奇心を満たす事を報酬として組み込む手法が以前より研究されている ・今回発表さ...
学習手法

強化学習における好奇心報酬とぐずぐず先延ばしの罠(1/2)

1.強化学習における好奇心報酬とぐずぐず先延ばしの罠(1/2)まとめ ・強化学習は飴と鞭で人工知能を学習させるが飴も鞭もほとんど発生しない世界では学習できない ・好奇心を満たす事を報酬として組み込む手法が以前より研究されている ・今回発表さ...
入門/解説

ActiveQA:強化学習を用いてQAシステムを教師無し学習で改良する試み

1.ActiveQA:強化学習を用いてQAシステムを教師無しで改良する試みまとめ ・ActiveQAはより良い回答を引き出すための質問方法を強化学習で学習するシステム ・ActiveQAは教師無し学習だが教師有り学習をしたQAシステムより高...
学習手法

dopamine:柔軟で再現可能な強化学習のための新フレームワーク

1.dopamine:柔軟で再現可能な強化学習のための新フレームワークまとめ ・強化学習を簡単に体験できるTensorFlowベースの新フレームワーク、dopamineが公開 ・明瞭且つシンプルで再現性を意識し、サンプルもドキュメントも豊富...
モデル

QT-Opt:ロボットに一般化スキルを学ばせる大規模な深層強化学習

1.QT-Opt:ロボットに一般化スキルを学ばせる大規模な深層強化学習まとめ ・深層強化学習でロボットが見た事のない物体でも上手に掴めるよう学ばせる事ができた ・つかみにくい物体や途中で邪魔をされたり密集した状態でも上手につかむ事ができた ...
学習手法

強化学習でニューラルネットワークの最適化手法を発見する試み

1.強化学習でニューラルネットワークの最適化手法を発見する試みまとめ ・Googleが自動でニューラルネットワークの最適化手法を発見するNeural Optimizer Searchを発表 ・成果物としてPowerSignとAddSignの...