HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(1/3)

AI

1.HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(1/3)まとめ

・制御された環境では一元化されたプランナーを使えば複数ロボットが連携して動作可能
・現実世界では独立したロボット同士で連携する場合は目標を互いに調整する必要が出て来る
・ロボット同士が明示的に通信せずに会合条件を合意する必要があるランデブータスクは困難

2.HPPとは?

以下、ai.googleblog.comより「Model-Based RL for Decentralized Multi-agent Navigation」の意訳です。元記事の投稿は2021年4月28日、Rose E. WangさんとAleksandra Faustさんによる投稿です。

元記事に出て来る表現は「rendezvous task(ランデブータスク)」で、ランデブーは日本語として通じる気もしますが、「落ち合う」とか「待ち合わせる」とかそんな意味です。「落ち合うタスク」として訳すと逆に混乱を招きそうなので「待ち合わせタスク」としましたが、意味的には「落ち合うタスク」の方が妥当な気もします。

ランデブーな雰囲気のアイキャッチ画像って選ぶの大変そうだな、と思ったのですが、良く考えるとランデブータスクでワールドワイドに有名な御方がいる!と言う事で選んだアイキャッチ画像のクレジットはPhoto by Matthieu Collin on Unsplash。意外にご本体の画像が見つからなかったです。

ロボットが日常生活の中でより身近な存在になるにつれて、ロボット同士やロボットが周辺環境と相互作用する際の複雑さが増しています。実験室などの制御された環境では、複数のロボットが、個々のエージェント間の通信を容易にする一元化されたプランナー(centralized planner)を介して、行動や達成目標を調和を取りながら実行する事ができます。

信頼性の高いセンサー情報に基づいて、目標のナビゲーションを行うために、多くの研究が行われています。しかし、多くの実際のアプリケーションでは、独立したロボットエージェント間で目標を調整する必要があり、一元化されたプランナーを使わずに実行する必要があります。

このようなやりがいのある分散型タスクの例は、ランデブータスク(rendezvous task:待ち合わせタスク)です。このタスクでは、複数のエージェントが、互いに明示的に通信することなく、出会うことができる時間と場所について合意する必要があります。

この目標調整タスクは、現実世界の複数エージェント間、または人間とロボット間でヤリトリする際に重要な役割を果たします。例えば、物体を持ち運ぶ際や、その場で行き先を決定したりする際などに必要になります。

このような状況で分散型ランデブータスクを解決するためには、環境内の障害物だけでなく、各エージェントのポリシーとダイナミクスにも依存します。

潜在的に起こりうる設定ミスへの対処とノイズの多いセンサーデータの処理は、エージェントが他のエージェントの動きや自身の動きをモデル化する能力と、限られた情報を利用しながら多様な意図に適応できるかどうかに依存します。


障害物によって分離された、互いに出会うという目的を共有する2つの独立制御ロボットの例
彼らは出会うためにどのように動くべきでしょうか?軌道の例は、各ロボットの赤と青の矢印で示されています。各ロボットは、独自の観察に基づいてどこに行くかを独立して決定します。

CoRL 2020で発表された論文「Model-based Reinforcement Learning for Decentralized Multiagent Rendezvous」では、階層型予測計画(HPP:Hierarchical Predictive Planning)と呼ばれる分散型ランデブータスクの課題に対処するための全体的なアプローチを提案します。

これは分散型のモデルベースの強化学習(RL:Reinforcement Learning)システムであり、エージェントが現実世界でその場で目標を調整できるようにします。

HPPを現実世界の環境とシミュレートされた環境が混在する場所で評価し、いくつかの学習ベースの計画および一元化された比較対象手法と比較しました。これらの評価では、HPPが軌道をより効果的に予測および調整し、調整ミスを回避し、追加の微調整なしで現実世界に直接転移できることを示しています。

3.HPP:ロボット同士が待ち合わせできるようにするモデルベース強化学習(1/3)関連リンク

1)ai.googleblog.com
Model-Based RL for Decentralized Multi-agent Navigation

2)arxiv.org
Model-based Reinforcement Learning for Decentralized Multiagent Rendezvous

タイトルとURLをコピーしました