脚式ロボットが学習時に転倒して破損しないようにする(3/3)

１．脚式ロボットが学習時に転倒して破損しないようにする(3/3)まとめ

・2脚バランスタスクでは2脚だけで最大4回ジャンプしてバランスを維持することができた
・実世界で自律的かつ安全にロボットが脚式運動スキルを学習できることが示唆された。
・現時点ではまだ環境や非線形ダイナミクスからくるモデルの不確実性を無視している

以下、ai.googleblog.comより「Learning Locomotion Skills Safely in the Real World」の意訳です。元記事は2022年5月5日、Jimmy (Tsung-Yen) Yangさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Ana Dujmovic on Unsplash

また、以下の動画では、2脚バランスタスクの学習過程について、学習者ポリシーと安全回復ポリシーの相互作用、エピソード終了時の初期位置へのリセットを紹介しています。

ロボットが転倒した際に、持ち上げている脚(前足は左、後ろ足は右)を外側に倒して支持多角形を作り、自分を受け止めようとしていることがわかります。学習エピソードが終了すると、ロボットは自動的にリセット位置まで歩きます。これにより、人間の監視なしに自律的かつ安全に方針を訓練することができます。

トレーニングの初期段階

トレーニングの後期段階

安全回復ポリシーがない場合

最後に、学習が完了したポリシーのクリップを示します。

まず、キャットウォークタスクでは、両脚の間隔が0.09mと通常値より40.9%小さくなっていることがわかります。

次に、2脚バランスタスクでは、シミュレーションから事前学習した方針では1回のジャンプであるのに対し、2脚だけで最大4回ジャンプしてバランスを維持することができます。

最終的に学習した2脚バランス

安全強化学習フレームワークを提示し、それを用いて、効率的歩行タスクとキャットウォークタスクの学習プロセス全体において、転倒せず、手動リセットを必要としないロボットポリシーを訓練できることを実証しました。

このアプローチにより、2本脚のバランスタスクの学習においても、たった4回の転倒で済むようになりました。

また、安全回復ポリシーは必要なときだけ起動されるため、ロボットはより環境を完全に探索することができます。この結果は、実世界において自律的かつ安全に脚式運動スキルを学習できることを示唆しており、ロボット学習のためのオフラインデータセット収集などの新しい機会の扉を開く可能性があります。

制限のないモデルはありません。私達は現在、理論解析において、環境と非線形ダイナミクスからくるモデルの不確実性を無視しています。これらを含めることで、私達のアプローチの一般性をさらに向上させることができます。

さらに、切り替え基準として使用しているいくつかのハイパーパラメータは、現在、経験則的に調整されています。学習の進捗に基づき、いつ切り替えるかを自動的に決定することができれば、より効率的でしょう。

さらに、この安全なRLフレームワークを、ロボット操作など他のロボットアプリケーションに拡張することも興味深いです。

最後に、安全回復ポリシーを取り入れる際に適切な報酬を設計することは、学習性能に影響を与えます。今回の実験では、ペナルティに基づくアプローチを用いており、妥当な結果が得られましたが、今後の研究でさらなる性能向上を目指す予定です。

論文の共著者に感謝します。Tingnan Zhang、Linda Luu、Sehoon Ha、Jie Tan、Wenhao Yuの各氏に感謝します。また、議論とフィードバックをいただいたGoogle社のRoboticsチームメンバーにも感謝します。