強化学習

入門/解説

AttentionAgent:重要度が低い情報を無視する強化学習エージェント(2/2)

1.AttentionAgent:重要度が低い情報を無視する強化学習エージェント(2/2)まとめ ・Attention Agentは主要タスクにとって重要ではない情報を無視するので小規模環境変化に対応可能 ・しかし、背景を猫動画に変更するよ...
学習手法

AttentionAgent:重要度が低い情報を無視する強化学習エージェント(1/2)

1.AttentionAgent:重要度が低い情報を無視する強化学習エージェント(1/2)まとめ ・人間は選択的注意の仕組みにより膨大な情報を圧縮し意思していると考えられている ・強化学習エージェントは逆に全視覚情報に加えて将来予測まで情報...
学習手法

DADS:教師なしで有用なスキルを発見する強化学習(2/2)

1.DADS:教師なしで有用なスキルを発見する強化学習(2/2)まとめ ・DADSは環境にとらわれないため、ロボット移動タスクにも操作タスクにも適用可能 ・スキルに追加のトレーニングが必要ないため、サンプル効率が非常に高く追加トレーニングが...
学習手法

DADS:教師なしで有用なスキルを発見する強化学習(1/2)

1.DADS:教師なしで有用なスキルを発見する強化学習(1/2)まとめ ・教師有り強化学習はシミュレーション環境を飛び出して現実世界の複雑な動作を学習できるようになった ・しかし、様々なタスク用に報酬関数を手動で設計する必要がありこれがボト...
モデル

深層強化学習の力でロボットが俊敏で知的な移動を実現(3/3)

1.深層強化学習の力でロボットが俊敏で知的な移動を実現(3/3)まとめ ・階層強化学習では高レベルポリシーと低レベルポリシーは同時にトレーニングされる ・トレーニング目的はロボットの軌道から得られる総報酬を最大化する事 ・学習完了後は高レベ...
学習手法

深層強化学習の力でロボットが俊敏で知的な移動を実現(2/3)

1.深層強化学習の力でロボットが俊敏で知的な移動を実現(2/3)まとめ ・ロボットにオフィス内を移動させる等の複雑なタスクは速度、方向、高さを複数回調整する必要がある ・従来は複雑なタスクを複数の階層的小タスクに分解することで解決していたが...
学習手法

深層強化学習の力でロボットが俊敏で知的な移動を実現(1/3)

1.深層強化学習の力でロボットが俊敏で知的な移動を実現(1/3)まとめ ・強化学習のサンプル効率の悪さは依然として多くのアルゴリズムにとって主要なボトルネック ・脚式ロボットのためのデータ効率の良い強化学習として効率的な学習方法を発表 ・必...
入門/解説

ICLR 2020におけるGoogleの存在感

1.ICLR 2020におけるGoogleの存在感まとめ ・エチオピアで開催予定だったICLR2020が完全バーチャル会議として開催 ・Google AIブログで概要が発表済みの論文も9つ存在するので要チェック ・BERTが76分でトレーニ...
学習手法

深層強化学習を使って半導体チップの設計を自動化

1.深層強化学習を使って半導体チップの設計を自動化 ・機械学習に専用ハードウェアを使用する事が増えているがチップ設計に数年単位の時間がかかる ・チップ設計を強化学習に行わせて、過去の経験から学び、時間をかけて改善するアプローチを実現 ・これ...
モデル

ロボット工学における進化的メタラーニングの探索(3/3)

1.ロボット工学における進化的メタラーニングの探索(3/3)まとめ ・ES-MAMLは優れたパフォーマンスを持つが現実世界に展開する事は依然として困難 ・現実世界のデータをできるだけ少なくするために、新規にバッチ山登り法を導入 ・その結果、...
モデル

ロボット工学における進化的メタラーニングの探索(2/3)

1.ロボット工学における進化的メタラーニングの探索(2/3)まとめ ・MAMLの代わりに進化的戦略であるES-MAMLを使うと確率性に関する競合を回避できる ・ESはパラメータが少ないため展開が容易で電力効率が高く効率的でコンパクトな学習が...
モデル

ロボット工学における進化的メタラーニングの探索(1/3)

1.ロボット工学における進化的メタラーニングの探索(1/3)まとめ ・シミュレーションによりロボットのトレーニングは実現しやすくなったがギャップが存在 ・シミュレーション環境と現実世界の間に存在する微妙なギャップで意図した通りに動かない ・...