強化学習

入門/解説

Google AIプリンストン研究所で行われる現在および将来の研究(2/2)

1.Google AIプリンストン研究所で行われる現在および将来の研究(2/2)まとめ ・オンライン学習からヒントを得て強化学習の枠組みを広げる研究も行われている ・線形動的システムの推定と制御のためのスペクトルフィルタリングのアルゴリズム...
モデル

Google AIプリンストン研究所で行われる現在および将来の研究(1/2)

1.Google AIプリンストン研究所で行われる現在および将来の研究(1/2)まとめ ・来年、プリンストン大学の側にGoogleが新しく研究所を開設予定 ・新しい研究所では大規模機械学習の最適化や制御理論および強化学習が注力される ・大規...
モデル

Grasp2Vec:物体を掴む事により認知能力を高める自己監視型強化学習(2/2)

1.Grasp2Vec:物体を掴む事により認知能力を高める自己監視型強化学習(2/2)まとめ ・Grasp2Vecは物体をベクトル表現する事で物体同士のベクトル演算を可能にする ・これによりGrasp2Vecは物体同士の類似性や指定物体の場...
モデル

Grasp2Vec:物体を掴む事により認知能力を高める自己監視型強化学習(1/2)

1.Grasp2Vec:物体を掴む事により認知能力を高める自己監視型強化学習(1/2)まとめ ・人間は誰にも教えられなくとも物を掴み、それを認知できるようになる ・Grasp2Vecはこの掴む事と認知機能の関係性に着目した ・自己監視型強化...
その他の調査

予想外の事をしでかす人工知能の例

1.予想外の事をしでかす人工知能の例まとめ ・人工知能はルールや報酬を正しく設定しないと予想外の行動をとる事がある ・そういった予想外の行動の一覧をスプレッドシートで公開してくれている人がいる ・その予想外行動の中からわかりやすい事例を抜粋...
学習手法

AdaNet:高速かつ柔軟な学習保証付きでAutoMLをアンサンブルする

1.AdaNet:高速かつ柔軟な学習保証付きでAutoMLをアンサンブルするまとめ ・AdaNetではAutoMLで自動構築したモデルを自動的にアンサンブル学習に組み込む事ができる ・AutoMLの動作やAdaNetによるアンサンブル手法に...
入門/解説

強化学習における好奇心報酬とぐずぐず先延ばしの罠(2/2)

1.強化学習における好奇心報酬とぐずぐず先延ばしの罠(2/2)まとめ ・強化学習は飴と鞭で人工知能を学習させるが飴も鞭もほとんど発生しない世界では学習できない ・好奇心を満たす事を報酬として組み込む手法が以前より研究されている ・今回発表さ...
学習手法

強化学習における好奇心報酬とぐずぐず先延ばしの罠(1/2)

1.強化学習における好奇心報酬とぐずぐず先延ばしの罠(1/2)まとめ ・強化学習は飴と鞭で人工知能を学習させるが飴も鞭もほとんど発生しない世界では学習できない ・好奇心を満たす事を報酬として組み込む手法が以前より研究されている ・今回発表さ...
入門/解説

ActiveQA:強化学習を用いてQAシステムを教師無し学習で改良する試み

1.ActiveQA:強化学習を用いてQAシステムを教師無しで改良する試みまとめ ・ActiveQAはより良い回答を引き出すための質問方法を強化学習で学習するシステム ・ActiveQAは教師無し学習だが教師有り学習をしたQAシステムより高...
入門/解説

Google AI Residency Program 2017の成果の一部

1.Google AI Residency Program 2017の成果の一部まとめ ・Google AI Residencyプログラムの成果の一部を紹介 ・人間と機械の両方に影響を及ぼす敵対的データ、安全強化学習など ・2019年のGo...
AI関連その他

控えめな天才:GoogleのAutoMLの背後にいる人

1.控えめな天才:GoogleのAutoMLの背後にいる人まとめ ・seq2seq、doc2vec、AutoMLを開発したGooleの研究者、Quoc Leの経歴紹介 ・猫認識ディープラーニングから直近は機械学習を使用した機械学習の自動化に...
その他

Dota2の人工知能対プロゲーマー勝負は人間が一矢報いる

1.Dota2の人工知能対プロゲーマー勝負は人間が一矢報いるまとめ ・対セミプロでは圧勝した人工知能チームはプロチームに敗れる ・15分以上先の行動を見据えるメカニズムがないなど戦略の差が出た ・アグレッシブさにかける、チーム戦と個人戦の差...