脚式ロボットが学習時に転倒して破損しないようにする(2/3)

１．脚式ロボットが学習時に転倒して破損しないようにする(2/3)まとめ

・ロボットを使い効率的歩行、キャットウォーク、2脚バランスタスクで実験を行った
・学習者ポリシーは安全回復ポリシーを発動する必要性を回避しながら学習できた
・安全トリガーセットと安全回復ポリシーは性能が向上してもポリシー探索を妨げない

２．安全回復ポリシーの効果

以下、ai.googleblog.comより「Learning Locomotion Skills Safely in the Real World」の意訳です。元記事は2022年5月5日、Jimmy (Tsung-Yen) Yangさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Ana Dujmovic on Unsplash

脚式機関の課題

本アルゴリズムの有効性を示すために、3種類の脚式機関の運動技能の学習を考えます。

(1)効率的歩行(Efficient Gait)
ロボットはエネルギー消費の少ない歩き方を学習し、エネルギー消費が少なければ報酬が与えられます。

(2)キャットウォーク(Catwalk)
ロボットが、左右の2本の足が互いに接近するキャットウォーク歩行パターンを学習します。体重を支える脚が狭い多角形形状になるため、ロボットの安定性が損なわれます。そのため、キャットウォークは挑戦的な取り組みです。

(3)2脚バランス(Two-leg Balance)
右前と左後ろの2本の足で立脚し、残りの2本の足を持ち上げる2脚バランス方針を学習します。体重を支える脚が多角形形状から線分形状に縮退してしまうため、繊細なバランス制御を行わないと簡単に転倒してしまいます。

論文で検討したロコモーションタスク(Locomotion tasks)
上段：効率的な歩行中段：キャットウォーク下段：両足バランス

実装の詳細

学習者ポリシーと安全回復ポリシーには、RLと従来の制御手法を組み合わせた階層的ポリシーフレームワークを用いています。

このフレームワークは、歩行パラメータ(例：ステップ頻度)と足の配置を生成する高レベルのRLポリシーと、これらのパラメータを取り込んでロボットの各モータに望ましい出力を計算するモデル予測制御(MPC:Model Predictive Control)という低レベルのプロセスコントローラで構成されています。

モータの角度を直接指令しないため、より安定した動作が得られ、行動空間が小さくなるためポリシーの学習が効率化され、より堅牢なポリシーが得られます。

RLポリシーネットワークの入力には、以前の歩行パラメータ、ロボットの高さ、機体の向き、直線速度、角速度、およびロボットが安全トリガセットに近づいているかどうかを示すフィードバックが含まれます。私達は各タスクで同じ設定を使用しています。

私達は、できるだけ早く安定に到達することに報酬を与える安全回復ポリシーを訓練します。さらに、捕捉可能性理論(capturability theory)からヒントを得て、安全トリガーセットを設計します。

特に、最初の安全トリガーセットは、ロボットの足が安全回復ポリシーを使って安全に回復できる状態から外れないことを保証するために定義されます。次に、このセットを実際のロボット上でランダムなポリシーで微調整し、ロボットが転倒しないようにします。