AutoRL：自動強化学習による長距離ロボットナビゲーションの実現(3/3)

１．AutoRL：自動強化学習による長距離ロボットナビゲーションの実現(3/3)まとめ

・PRM-RLにAutoRLでトレーニングしたローカルプランナーを組み合わせる等多数の改良をした
・SLAMマップでsim2realギャップの解消に成功し、分散型ロードマップで大規模マップにも対応した
・数百メートル範囲を自律的に移動可能なロボットの実現し、移動困難な人々の自律性を支援する道を開いた

２．AutoRLとPRM-RLを組み合わせた結果

以下、ai.googleblog.comより「Long-Range Robotic Navigation via Automated Reinforcement Learning」の意訳です。元記事は2019年2月28日、Aleksandra FaustさんとAnthony Francisさんによる投稿です。

3番目の論文では、元のPRM-RLに対していくつかの改良を加えました。まず、手動で調整していたDDPGをAutoRLでトレーニングしたローカルプランナーに置き換えました。これにより、長距離ナビゲーション性能が向上します。

次に、ロードマップを作成するための情報源として、実行時にロボットが使用するSLAM(Simultaneous Localization And Mapping)マップを追加しました。SLAMマップはノイズが多いため、この変更により、シミュレーションで訓練されたエージェントが実際のロボットに転送された時にパフォーマンスが大幅に低下する「sim2realギャップ」(ロボット工学における現象)が解消されます。我々のシミュレーションの成功率と実際のロボットに搭載して動かした際の成功率は等しいです。最後に、建物を分散型ロードマップで追加した結果、最大700,000ノードまでを含む非常に大規模なロードマップの作成に成功しました。

AutoRLエージェントを使用する手法を評価した所、トレーニング環境の最大200倍の規模のオフィスフロアマップを使用してロードマップを作成し、20回の試行回数で少なくとも90％の成功率を達成しました。

私達はPRM-RLを100mまでの距離で様々な手法と比較しました。100mはローカルプランナーが取り扱える距離限界をはるかに超えています。ノード間がロボットの性能に合わせて適切に接続されているため、PRM-RLはベースラインの2～3倍の成功率を達成しました。

いくつかの建物で実施した100メートル以上のナビゲーションの成功率の比較。最初の論文のAutoRLローカルプランナーのみ(青)。オリジナルのPRM(赤)。 path-guided artificial potential fields(黄色)。二番目の論文(緑)。三番目の論文 – AutoRL付きのPRM(オレンジ)。

PRM-RLは複数のロボットと実際の建築現場でテストされました。試験の一例を以下に示します。ロボットは、雑然とした領域の近くやSLAMマップの端以外は非常に堅牢です。

ロボットに搭載した実験

まとめ
自律にロボットが動くようになれば、移動に困難を抱える人々の自立性を大幅に向上させることができます。

私達は、学習した事を応用して、今まで見た事がない新しい状況にも対応できるような適応力のある自律型ロボットを開発すればこれを達成することができます。

これは、AutoRLを使用して基本的な短距離ナビゲーション動作を自動で学習させる事によって可能になります。SLAMマップと組み合わせてこれらの学習したポリシーを使用すればより広範囲なロードマップを作成する事ができます。その結果、一度学習したポリシーをさまざまな環境で使用できるようになり、更にそのポリシーは、特定のロボットの性能に合わせてカスタマイズしたロードマップを作成できます。

謝辞
この研究は、アルファベット順に以下の人々により成し遂げられました。Hao-Tien Lewis Chiang, James Davidson, Aleksandra Faust, Marek Fiser, Anthony Francis, Jasmine Hsu, J. Chase Kew, Tsang-Wei Edward Lee, Ken Oslund, Oscar Ramirez、ニューメキシコ大学のLydia Tapia。私達はAlexander Toshev, Brian Ichter, Chris Harris, incent Vanhouckeとの有益な議論にも感謝します。