Performer-MPC：Transformerをロボットに適用して機敏に自律走行させる(2/2)

１．Performer-MPC：Transformerをロボットに適用して機敏に自律走行させる(2/2)まとめ

・Performer-MPCはロボットに搭載可能で8msで応答し、830万のPerformerパラメータを備えておりリアルタイムの運行に適用可能
・従来手法では最短距離を移動しようとして障害物に引っかかってしまうような複雑な場面でもPerformer-MPCは86%の成功率を示した
・死角がある曲がり角でも従来手法は最短距離を突っ切ろうとして人に衝突してしまうがPerformer-MPCは安全で社会的に許容される距離を保つ

２．Performer-MPCの性能

以下、ai.googleblog.comより「Performer-MPC: Navigation via real-time, on-robot transformers」の意訳です。元記事は2023年3月3日、Krzysztof ChoromanskiさんとXuesu Xiaoさんによる投稿です。

アイキャッチ画像はカスタムStable Diffusionによる生成

実世界でのロボットナビゲーション

Performer-MPCは、原理的には様々なロボット環境に適用可能ですが、私たちは、人が存在する可能性のある狭い空間での運行に関する性能を評価しました。Performer-MPCを前方に3D LiDARカメラ、頭部に深度センサーを搭載した差動車輪型ロボット(differential wheeled robot、両サイドの車輪を別々に駆動して方向転換などが可能なロボット)に搭載しました。

Performer-MPCはロボットに搭載可能で8msで応答し、830万のPerformerパラメータを備えています。1回のPerformer実行にかかる実際の時間は約1msで、最速のPerformer-ReLUの亜種を使用しています。

Performer-MPCを2つの比較対象手法と比較しました。

コストに関する学習を含まない通常のMPCポリシー(RMPC:Regular MPC)と、同じPerformerアーキテクチャを用いてはいますがMPC構造と結合しておらず、参照状態とゴール状態を予測するExplicit Policy(EP)です。私たちはPerformer-MPCをシミュレーションと3つの実世界シナリオで評価しました。各シナリオにおいて、学習したポリシー(EPとPerformer-MPC)は、シナリオに特化したデモンストレーションで学習しています。

実験シナリオ： (a)出入り口通過時に局所的に最適に見える最短経路を回避(avoid local minima)する行動を学習、(b)制約の多い空間での運行、(c)死角のある曲がり角での社会的規範行動の実現、(d)障害となる歩行者への対応

私たちのポリシーは、実世界における数時間の人間制御のロボット運行データを用いた行動クローニングによって学習されます。データ収集の詳細については、論文を参照してください。

Performer-MPC(緑)とRMPC(赤)の計画結果を、専門家のデモ(グレー)と共に上半分に、下半分に訓練曲線とテスト曲線を可視化しています。ロボットの軌道と専門家の軌道の距離を測定するために、ハウスドルフ距離(Hausdorff distance)を用いています。

上：出入り口横断(左)と障害物で非常に制約されたコース(右)におけるテスト例の可視化
ゴールを目指すPerformer-MPCの軌道は、RMPCの軌道に比べ、常に専門家のデモに近い軌道です。
下図：縦軸はハウスドルフ距離、横軸は訓練ステップを表します。

上：死角を持つ曲がり角(左)と障害となる歩行者(右)のシナリオにおけるテスト例の可視化
ゴールを目指すPerformer-MPCの軌道は、RMPCの軌道に比べ、常に専門家のデモに近い軌道です。
下図：縦軸はハウスドルフ距離、横軸は訓練ステップを表します。

局所的に最適に見える最短経路を回避する学習

私たちは、壁の反対側から100組のスタートとゴールのペアがランダムにサンプリングされた模擬出入り口横断シナリオでPerformer-MPCを評価しました。貪欲なコスト関数によって導かれるプランナーは、しばしばロボットを局所的に最適に見える最短経路に導きます。(すなわち、壁の反対側にあるゴールに最も近い地点で立ち往生してしまいます)。

Performer-MPCは、たとえゴールから遠ざかり、さらに移動しなければならないとしても、ロボットが出入り口を通過するように誘導するコスト関数を学習します。RMPCの成功率24%に対し、Performer-MPCは86%の成功率を示しています。

出入り口通過タスクにおけるPerformer-MPCと通常のMPCの比較

制約の多い場所での運行を学習

次に、Performer-MPCを難しい実世界のシナリオでテストします。このシナリオでは、ロボットは散らかった自宅やオフィスの中で、衝突寸前に及ぶ鋭敏な運行をしなければなりません。グローバルプランナーは、ロボットが従う粗いウェイポイント(スケルトンナビゲーションパス)を提供します。各ポリシーを10回実行し、ロボットが障害物コースを失敗(衝突や立ち往生)せずに通過できた成功率(SR)と分散(VAR)を伴う平均完了率(CP)を報告します。Performer-MPCは、SRとCPにおいてRMPCとEPの両方を上回っています。

RMPC、EP、Performer-MPCのポリシーの軌跡と失敗箇所(十字で示す)を示す障害物コースです。

Regular MPC、Explicit Policy、Performer-MPCを用いた、制約の多い空間でのEveryday Robotsヘルパーロボットの運行

人がいる空間での運行を学ぶ

静的な障害物だけでなく、Performer-MPCを人間社会的でロボットを運航する際に適用します。

この場合、ロボットは社会的に受け入れられる方法で運行しなければならず、コスト関数の設計は困難です。

私たちは以下の2つのシナリオを考えます

(1)死角となっている曲がり角(突然人が現れる事を想定し、ロボットは廊下の曲がり角の内側を避けて運行するべきです)
(2)歩行者が障害となるケース(突然人がロボットの所定の経路を妨害する

Everyday Robotsのヘルパーロボットに導入されたPerformer-MPC
左：Regular MPCは、効率よく死角に投入し、人を後退させます
右：Performer-MPCは死角を作らないため、安全で社会的に許容される距離をとって人の周囲を移動できます。

曲がり角などの死角で歩行者と相対するシナリオ
Everyday Robotsのヘルパーロボットを使用してRegular MPC、Explicit Policy、Performer-MPCの比較

確認されていなかった歩行者によって運行通路が塞がれているシナリオ
Everyday Robotsのヘルパーロボットを使用してRegular MPC、Explicit Policy、Performer-MPCの比較

結論

Performer-MPCを紹介しました。Performer-MPCは、実世界で、堅牢で適応力のあるロボット運行を可能にするいくつかのメカニズムを組み合わせた一気通貫で学習可能なロボットシステムです。ロボットに搭載したtransformersを使用して機敏に動作します。

本研究では、規模拡大可能なtransformersアーキテクチャが、表現力豊かなattentionベースのロボット制御装置を設計する上で、重要な役割を果たすことを示しました。

数百万のパラメータを持つtransformersを活用したポリシーにおいて、ミリ秒単位のリアルタイム推論が実現可能であることを実証します。更に、このようなポリシーによって、ロボットが効率的で社会的に受け入れられる行動を学習し、うまく汎化できることを示すことができます。私たちは、Transformersを実世界のロボット工学に応用するためのエキサイティングな時代を開くと信じており、Everyday Robotsのヘルパーロボットとの研究を継続することを楽しみにしています。

謝辞

客員研究員としてEveryday Robotsでこの取り組みを共同リードしてくれたXuesu Xiaoに特別な感謝を捧げます。

この研究は、Xuesu Xiao、Tingnan Zhang、Krzysztof Choromanski、Edward Lee、Anthony Francis、Jake Varley、Stephen Tu、Sumeet Singh、Peng Xu、Fei Xia、Sven Mikael Persson、Dmitry Kalashnikov、Leila Takayama、Roy Frostig、Jie Tan、Carolina ParadaとVikas Sindhwaniによって行われました。原稿へのフィードバックをいただいたVincent Vanhouckeに感謝します。