強化学習 | ページ 10

ロボット学習のためにシミュレーションと現実のギャップを埋める(1/4)

１．ロボット学習のためにシミュレーションと現実のギャップを埋める(1/4)まとめ・ロボットを自律的に学習させるためにはシミュレーションが有用であるが現実世界との間にギャップがある・現実世界とのギャップは、現実とシミュレーションの間の微妙...

2019.12.02

モデル

１．RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(3/3)まとめ・RecSimは強化学習/推奨アルゴリズムを調査するために十分な機能を持つが拡張機能も存在・「sim-to-real」ギャップの部分的解...

2019.11.27

入門／解説

１．RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(2/3)まとめ・ほとんどの推薦システムは静的データセットを使用しておりユーザと実際に対話しているわけではい・また推薦ポリシーそのものがユーザーの行動に...

2019.11.26

入門／解説

１．RecSim:推薦システムに強化学習を使うためのシミュレーションプラットフォーム(1/3)まとめ・ユーザーニーズに最適に対応するためにユーザーと対話を行う推薦システム、CIRが有望視されている・しかし、CIRはユーザと対話するアルゴ...

2019.11.25

入門／解説

１．MobileNetV3:次世代のオンデバイス視覚モデル(1/3)まとめ・スマートフォンなどのデバイス上で実行される事が前提のニューラルネットワークMobileNetV3の発表・オンデバイスでの実行に最適化されているがMobileNe...

2019.11.20

モデル

１．VTAB:視覚タスク用のベンチマーク(1/2)まとめ・視覚タスク用に事前トレーニングしたモデルは有用だが数が多く評価方法も異なっている・数が多すぎる故にどのモデルが最適な特徴表現を提供してくれるのかを知ることは困難・VTABは多様...

2019.11.14

入門／解説

１．最も役に立った機械学習に関する10の無料オンラインコースまとめ・FastAIのJeremy HowardさんがTwitterで紹介してたまとめの意訳・英語の授業ですがどんなコースが評価されてるかの目安として・良い評判を聞いた事のあ...

2019.10.18

入門／解説

１．ROBEL:3Dプリンタで作成可能な強化学習用ロボット(3/3)まとめ・ROBELは剛い物体も柔らかい物体も扱う事が出来、予期せぬ妨害や障害に関しても対応可能・複数のD'Clawが経験を共有することで、タスクをまとめてより速く学習す...

2019.10.14

学習手法

１．ROBEL:3Dプリンタで作成可能な強化学習用ロボット(2/3)まとめ・ROBELにはD'Clawを用いた操作タスクとD'Kittyを用いた歩行タスクが用意されている・２つの機関でドキュメントと指示書のみを用いてROBELの構築と再...

2019.10.13

入門／解説

１．ROBEL:3Dプリンタで作成可能な強化学習用ロボット(1/3)まとめ・シミュレーション環境でロボットを強化学習させると微妙な誤差や遅延により現実世界への展開が困難・しかし、物理的なロボットは高価で工業用途向けに作られているために強...

2019.10.12

ロボット

１．強化学習を使って量子計算を改善(2/2)まとめ・次のステップとして量子制御コスト関数をオンポリシーRLを使って最適化した・オンポリシーRLとオフポリシーRLの違いは制御ポリシーが制御コストとは独立して表されること・新しいフレームワ...

2019.10.08

学習手法

１．強化学習を使って量子計算を改善(1/2)まとめ・量子コンピュータの構成要素である量子ビットは周囲の微量なエネルギーの影響を受ける・更には制御用ツールによってもたらされる干渉などの影響も受けて誤差が拡大してしまう・強化学習を使用して...

2019.10.07

モデル