強化学習

学習手法

WANN:学習せずとも特定タスクを実行できるニューラルネットワークの探索(1/3)

1.WANN:学習せずとも特定タスクを実行できるニューラルネットワークの探索(1/3)まとめ ・特定の生物は本能により生まれながらにして天敵から逃れる行動をとる事が出来る ・ニューラルネットワーク探索により見つかったモデルの一部は画像処理タ...
インフラ

EfficientNet-EdgeTPU:アクセラレータでの実行に最適化したニューラルネット(1/2)

1.EfficientNet-EdgeTPU:アクセラレータでの実行に最適化したニューラルネット(1/2)まとめ ・ハードウェアアクセラレータ上での実行に最適化したニューラルネットワークはあまり存在しない ・AutoMLで最適化したEffi...
モデル

Off-Policy Classification:強化学習モデルを選別する新手法(2/2)

1.Off-Policy Classification:強化学習モデルを選別する新手法(2/2)まとめ ・OPCはSim-to-Realテクニックによって訓練されたモデルの評価に対しても有効であった ・OPCのスコアと現実世界のタスクの成功...
モデル

Off-Policy Classification:強化学習モデルを選別する新手法(1/2)

1.Off-Policy Classification:強化学習モデルを選別する新手法(1/2)まとめ ・完全ポリシー外強化学習は過去に収集されたデータのみを使って学習するタイプの強化学習 ・物理的なロボットがなくてもモデルをトレーニングが...
入門/解説

Google Research Football:新しい強化学習環境(2/2)

1.Google Research Football:新しい強化学習環境(2/2)まとめ ・Football Academyでは様々なレベルの難易度を持つ多様なシナリオのセットが提供されている ・Football Academyを使えばFo...
学習手法

Google Research Football:新しい強化学習環境(1/2)

1.Google Research Football:新しい強化学習環境(1/2)まとめ ・Google Research Footballは強化学習エージェントにサッカーをプレイさせる事ができる強化学習環境 ・短期視点、長期視点、ボールの...
入門/解説

2019年4月時点のGANに関する未解決な問題(3/7)

1.2019年4月時点のGANに関する未解決な問題(3/7)まとめ ・GANを画像以外の領域に適用する試みは主に3分野で、文章、構造型データ、音声 ・音声が最も有望な分野であるが、現時点ではまだ限定的な成功に留まっている ・GANが他の連続...
入門/解説

教師なし学習による特徴表現解きほぐし手法の評価(1/2)

1.教師なし学習による特徴表現解きほぐし手法の評価(1/2)まとめ ・抽出した特徴量をもっと細かく具体的な単位に解きほぐすdisentangledな手法が注目されている ・「猫の特徴」ではなく耳と目と輪郭と毛色から猫を特定できれば一部が写っ...
ロボット

再始動したGoogleのロボットプロジェクトの内情

1.再始動したGoogleのロボットプロジェクトの内情まとめ ・2013年にGoogleが始動した人間そっくりのロボットを作るプロジェクトは頓挫 ・現在のプロジェクトは機械学習を用いてシンプルなロボットアーム等を自律学習させる方向にシフト ...
入門/解説

SimPLe:ビデオモデルを用いてポリシー学習をシミュレート(2/2)

1.SimPLe:ビデオモデルを用いてポリシー学習をシミュレート(2/2)まとめ ・SimPLeはモデルベース強化学習でありサンプル効率性が高い ・他のモデルフリー強化学習の2倍程度のサンプル効率性を達成 ・モデルフリー強化学習のパフォーマ...
モデル

SimPLe:ビデオモデルを用いてポリシー学習をシミュレート(1/2)

1.SimPLe:ビデオモデルを用いてポリシー学習をシミュレート(1/2)まとめ ・現在の強化学習の問題点の1つは人間に比べて学習に非常に時間がかかる事である ・人間が効率的に学習できる理由は世界モデルを持っているからと推測されている ・モ...
ロボット

AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(3/3)

1.AutoRL:自動強化学習による長距離ロボットナビゲーションの実現(3/3)まとめ ・PRM-RLにAutoRLでトレーニングしたローカルプランナーを組み合わせる等多数の改良をした ・SLAMマップでsim2realギャップの解消に成功...