モデル Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(1/2) 1.Pathdreamer:馴染のない建物内で何処に何がありそうか予測するAI(1/2)まとめ ・人はなじみのない建物内でも視覚的な手がかりを利用して効率的に移動できる ・この機能をAIで実現するためには「視覚的な世界モデル」の実装が必要と... 2021.09.30 モデル
ロボット Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(3/3) 1.Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(3/3)まとめ ・BraxはCPUだけで実行しても従来の一般的な環境に比べて1桁以上高速に動作する ・Braxは高速で規模拡大可能な強化学習とロボ... 2021.07.27 ロボット学習手法
ロボット Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(2/3) 1.Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(2/3)まとめ ・Braxは「シミュレーション時に分岐が発生しない」ことを保証する事で効率化を実現 ・計算が厳密に同じであるため複雑さを軽減でき、... 2021.07.26 ロボット学習手法
ロボット Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(1/3) 1.Brax:Colabで大規模分散システムを凌駕する強化学習用物理シミュレーションエンジン(1/3)まとめ ・強化学習は単純なタスクでも習熟するために数百万から数十億のデータが必要になる ・大規模分散システムを使えば迅速に強化学習をトレー... 2021.07.25 ロボット学習手法
学習手法 深層強化学習研究の計算コストの削減(2/2) 1.深層強化学習研究の計算コストの削減(2/2)まとめ ・従来の制御環境ではRainbowの論文と異なり分散RLは単体では性能向上に貢献しなかった ・Rainbowに採用された各アルゴリズムの貢献度は適用環境ごとに異なる可能性がある ・計算... 2021.07.20 学習手法基礎理論
学習手法 深層強化学習研究の計算コストの削減(1/2) 1.深層強化学習研究の計算コストの削減(1/2)まとめ ・Rainbowは深層強化学習飛躍のきっかけとなったDQNに更に様々な改良を加えたアルゴリズム ・強化学習で論文掲載レベルの検証を行うためにはGCP換算で500万円の高いコストが必要 ... 2021.07.19 学習手法基礎理論
学習手法 RetinaGAN:シミュレーション環境から現実世界への転移を一般化(2/2) 1.RetinaGAN:シミュレーション環境から現実世界への転移を一般化(2/2)まとめ ・RL-CycleGAN は「タスクレベルの物体認識」を使用してsim-to-realギャップを超える ・RetinaGANは「ロボットの物体認識」に... 2021.06.10 学習手法
学習手法 RetinaGAN:シミュレーション環境から現実世界への転移を一般化(1/2) 1.RetinaGAN:シミュレーション環境から現実世界への転移を一般化(1/2)まとめ ・シミュレーションを使ってロボットを学習させると効率的だが現実世界への転移が難しい ・GANを使ってシミュレーション画像を現実画像に変換したいが変な変... 2021.06.09 学習手法
モデル DeformableRavens:変形可能な物体を操作することを学ぶ(2/2) 1.DeformableRavens:変形可能な物体を操作することを学ぶ(2/2)まとめ ・硬い物体の再配置研究に使用したTransporter Networkに目標条件付けを統合 ・バッグを開いて物をいれるなど柔軟に指定された形状を操作で... 2021.05.27 モデル学習手法AI
学習手法 RecSim NG:柔軟で規模拡大可能で微分可能なシミュレーション付き推薦システム(2/2) 1.RecSim NG:柔軟で規模拡大可能で微分可能なシミュレーション付き推薦システム(2/2)まとめ ・シミュレーションの並行実行は簡単ではないためTFのAutoGraphなど最適化の利用が重要 ・RecSim NGにより複雑なマルチエー... 2021.05.11 学習手法
学習手法 RecSim NG:柔軟で規模拡大可能で微分可能なシミュレーション付き推薦システム(1/2) 1.RecSim NG:柔軟で規模拡大可能で微分可能なシミュレーション付き推薦システム(1/2)まとめ ・推薦システムは広く利用されているが公平なサービスを提供するために多くの課題がある ・推薦システムで強化学習アルゴリズムを利用すためシミ... 2021.05.10 学習手法
学習手法 HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(3/3) 1.HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(3/3)まとめ ・HPPを使用すると、エージェントは軌道を予測して調整し、調整ミスを回避できる ・HPPは追加のトレーニングなしで現実の世界に直接転移させる事が出来る... 2021.05.09 学習手法