PI-ARS：視覚移動タスクに進化型の学習を採用して高速移動を実現(2/2)

１．PI-ARS：視覚移動タスクに進化型の学習を採用して高速移動を実現(2/2)まとめ

・PI-ARSは予測情報(PI)を使用して拡張ランダム探索(ARS)を改良した手法
・高次元の入力情報の次元を削減して扱いやすくするためARSの性能が向上する
・規模の拡大が難しかった進化戦略をロボット制御に応用する道筋が開けた

２．PI-ARSの性能

以下、ai.googleblog.comより「PI-ARS: Accelerating Evolution-Learned Visual-Locomotion with Predictive Information Representations」の意訳です。元記事は2022年10月20日、Wenhao YuさんとKuang-Huei Leeさんによる投稿です。

アイキャッチ画像はstable diffusionの1.5版の生成

私達は予測情報(PI:Predictive Information)から学習したコンパクトな特徴表現を用います。PIと拡張ランダム探索(ARS:Augmented Random Search)を接続したものをPI-ARSと呼んでいます。

具体的には、ARSはコントローラを最適化します。コントローラーは学習されたコンパクトな特徴表現(PI)を入力とし、タスクを達成するための適切なロボットコマンドを予測します。

より小さな入力空間でコントローラを最適化することで、ARSはより効率的に最適解を求めることができるようになります。一方、ARSの最適化で収集したデータを用いて学習済み特徴表現をさらに改善し、次の反復でARSのコントローラに入力とします。

PI-ARSのデータフローの概要
私達のアルゴリズムは、2つのステップの間で交錯しています。
(1)ポリシーを更新するPIを最適化します。これは学習した特徴表現を抽出するニューラルネットワークの重みです。
(2)新しい軌道のサンプリングとARSを用いたコントローラパラメータの更新

脚式ロボットを使って視覚を用いた移動タスク実行

PI-ARSの評価対象として、脚式ロボットを使った視覚を用いた移動タスクを選びました。この問題を選んだ理由は2つあります。視覚を用いた移動は、脚式ロボットが実世界で応用されるための重要なボトルネックであり、ポリシーへの高次元の視覚入力と脚式ロボットの複雑なダイナミクスは、PI-ARSアルゴリズムの有効性を実証するための理想的なテストケースとなります。シミュレーションにおける私達のタスク設定のデモンストレーションは以下の通りです。ポリシーはまずシミュレーション環境で学習され、その後ハードウェアに転送されます。

視覚を用いた移動タスクの設定
ロボットは2台のカメラを搭載し、環境(透明なピラミッドで図示)を観測します。観測結果とロボットの状態は、足の着地位置や希望する移動速度などの高レベルの運動計画を生成するためのポリシーに送られます。そして、このハイレベルな運動計画は、低レベルの運動予測制御(MPC:Motion Predictive Control)コントローラによって実現されます。

実験結果

まず、PI-ARSのアルゴリズムを4つの難易度の高いタスクで評価しました。

・凹凸のある踏み石
凹凸のある地形を隙間なく歩行する必要があります。

・凹凸のある段差
前方・側方ともに隙間から落ちないように歩く必要があります

・移動台
水平・垂直方向にランダムに動く踏み石の上を歩く必要があります。このタスクは、視覚に基づく学習が、明示的に環境を再構築するのに比べて柔軟であることを示しています。

・屋内ナビゲーション
屋内環境において、障害物を避けながらランダムな位置に移動するタスクです。

以下に示すように、PI-ARSは4つのタスクすべてにおいて、獲得できるタスク報酬の合計でARSを大きく上回る(30～50%程度)ことができます。

左：シミュレーションによるPI-ARSポリシーの性能の可視化。右図: PI-ARS(緑線)とARS(赤線)のタスク報酬(エピソードリターン)の合計。PI-ARSアルゴリズムは、4つの困難な視覚的位置決めタスクにおいて、ARSを大幅に上回る性能を示しました。

さらに、学習したアルゴリズムを実際のLaikagoロボットに適用し、ランダムな踏み石と屋内ナビゲーションの2つのタスクに適用しました。その結果、学習させたポリシーが実世界のタスクをうまく処理できることを実証しました。特に、ランダム飛び石タスクの成功率は、先行研究における40%から100%に向上しました。

PI-ARSで学習させた方針により、実際のLaikagoロボットが障害物を回避することができます。

まとめ

本研究では、勾配に基づく特徴表現学習と勾配に基づかない進化戦略(ES:Evolution Strategy)アルゴリズムを組み合わせ、両者の長所を活かした新しい学習アルゴリズムPI-ARSを発表しました。PI-ARSは、無勾配アルゴリズムの有効性、簡便性、並列性を享受しつつ、低次元特徴表現の最適化により、高次元問題の処理におけるESアルゴリズムの主要なボトルネックを解消することが可能です。

私達は、PI-ARSを難易度の高い視覚を用いた移動タスクに適用し、PI-ARSは最先端技術を大きく上回る性能を示しました。

さらに、PI-ARSによって学習された方針を実際の四足歩行ロボットで検証しました。その結果、ランダムに配置された飛び石の上を歩いたり、障害物のある屋内空間を移動したりすることが可能となりました。本手法は、現在の大規模ニューラルネットワークモデルと大規模データを、ロボット制御の進化戦略の範疇に取り込む可能性を開くものです。