XIRL:人と形状が異なるロボットは人から学ぶ事が出来るのか?(1/2)

AI

1.XIRL:人と形状が異なるロボットは人から学ぶ事が出来るのか?(1/2)まとめ

・人は他人から学ぶがロボットも同じようにする事ができないか考えた
・しかしロボットは人間と物理的に異なる構造を持つため人間の模倣が困難
・XIRLは動画から目的を学習して身体的差異に不変な報酬関数の形で要約する

2.XIRLとは?

以下、ai.googleblog.comより「Robot See, Robot Do」の意訳です。元記事は2022年2月8日、Kevin ZakkaさんとAndy Zengさんによる投稿です。

人の模倣をしているように見えるアイキャッチ画像のクレジットはPhoto by Andre Mouton on Unsplash

人は、他の人を見て物事を学んでいきます。例えば、新しいダンスの動きを真似たり、YouTubeの料理動画を見る事で学ぶことができます。

私たちはロボットも同じようにする事ができればと思います。つまり、学習中に人の動きを見て、新しいスキルを身につけるのです。

しかし、現在、ロボット学習は、遠隔操作用の専用ハードウェアでロボットを遠隔操作し、録画されたデモンストレーションを真似る事で学習することが主流となっています。そのため、デモンストレーションを行う人(プログラマーやロボット技術者)や場所(実験室など)が限定されてしまいます。もしロボットが人間を観察しながら新しいタスクを自己学習するようになれば、家庭のような非構造的な環境にも導入できるようになり、専門家であろうとなかろうと、誰でもロボットに教えたりコミュニケーションを取ったりすることが劇的に容易になります。

もしかしたら、ロボットはYoutubeの動画を見てスキルを増やしていくこともできるようになるかもしれません。


私たちのモチベーションは、人が自然に手を動かして作業をするのをロボットに見てもらい、そのデータを学習のためのデモンストレーションとして活用してもらうことです。Teh Aik HuiとNathaniel Limによる動画。License:はCC-BY

しかし、明らかでありながら見過ごされがちな問題は、ロボットは人間とは物理的に異なる構造を持つため、しばしば人間とはタスクのやり方が異なる事です。

例えば、下図のペン取扱タスクでは、人間の手は全てのペンをまとめて掴んで、容器間を素早く移動させることができますが、2本指しか持たないロボットのグリッパーは一度に1本ずつ搬送しなければなりません。

先行研究では、人間とロボットが同じ作業を同様に行えることを前提としているため、人間とロボットの動作の一対一対応を手動で指定することが容易になっています。しかし、体格が大きく異なるため、一見簡単そうに見える作業でも、その対応関係を定義することは意外と難しく、時には不可能な場合もあります。


物理的に異なる作業用先端部(end-effectors)(すなわちグリッパー(grippers)のようなロボットと環境が相互作用する部分)は、同じ課題を解決する際に異なる制御戦略を誘発します。
左:手はすべてのペンを掴み、容器間を素早く移動させます
右:2本指のグリッパーはペンを1本ずつ運びます

CoRL 2021で口頭発表した論文「XIRL: Cross-Embodiment Inverse RL」では、これらの課題をさらに掘り下げ、自己教師あり手法である、「異種の実施形態を視覚的な手がかりから逆に学ぶ強化学習XIRL(Cross-embodiment Inverse Reinforcement Learning)」を紹介しています。

XIRLは、人間の個々の動作がロボットの動作にどう対応すべきかに注目するのではなく、動画からハイレベルなタスクの目的を学習し、その知識を、形状、動作、作業用先端部の動きなどの身体的差異に不変な報酬関数の形で要約するものです。

学習された報酬は、強化学習と併用することで、新しい身体的特徴を持つエージェントに試行錯誤でタスクを教えることができます。私たちのアプローチは汎用的であり、データに応じて自動的に拡張することが可能です。映像に多様性があればあるほど、報酬関数の不変性と堅牢性が高まります。

実験によれば、私たちの学習した報酬関数は、他の方法と比較して、新しい実施形態(embodiments)に対する強化学習のサンプル効率が著しく高い(およそ2~4倍)ことが示されています。

本研究を発展させるため、本手法のオープンソース実装と、異種の実施形態を模倣するための新しいシミュレーションベンチマークであるX-MAGICALを公開します。

Cross-Embodiment Inverse Reinforcement Learning (XIRL)

この研究の根底にある観察は、異なる実施形態によって引き起こされる多くの違いにもかかわらず、共通のタスク目標に対して、進行を反映する視覚的な手がかりが存在するということです。

例えば、上記のペン取扱タスクでは、カップにペンがあるがマグカップにはない、あるいはテーブルの上にペンがない、というのは、異なる実施形態に共通する鍵となるフレームであり、タスクがどれだけ完了に近づいているかを間接的に示す手がかりとなります。

XIRLの鍵となるアイデアは、異なる長さの動画からこれらの鍵となる瞬間を自動的に発見し、それらを意味的にクラスタリングしてタスクの進行を符号化することです。

この動機は教師なしビデオアライメントの研究と多くの類似点があり、そこから私たちはTemporal Cycle Consistency(TCC)と呼ばれる手法を活用することができます。TCCは、ラベルを必要とせず、きめ細かくビデオを理解するために有用な視覚特徴表現を学習しながらビデオを正確に時間的に位置合わせ可能な手法です。

TCCを利用して、異なる専門家が同じタスクを行うデモ映像を時間的に整列させるエンコーダを学習させます。

TCC損失は、周期的に一致するフレーム(または相互最近傍)の数を最大化しようとするものです。ソフト最近傍の微分可能な定式化を用いてこれを計算します。

エンコーダの学習が完了したら、学習したembedding空間における現在の観測と目標の観測の間の負のユークリッド距離として、私たちの報酬関数を定義します。この報酬関数を標準的なマルコフ決定過程(Markov decision process)に挿入し、RLアルゴリズムを用いてデモとして提示された振る舞いを学習することができます。

驚くべきことに、この単純な報酬の定式化は、異種の実施形態を模倣する際に有効であることがわかりました。


XIRLは、専門家の実演から報酬関数をTCC(Temporal Cycle Consistency)により自己教師学習し、それを下流タスクの強化学習に用いて、第三者の実演から新しい技能を学習します。

3.XIRL:人と形状が異なるロボットは人から学ぶ事が出来るのか?(1/2)関連リンク

1)ai.googleblog.com
Robot See, Robot Do

2)arxiv.org
XIRL: Cross-embodiment Inverse Reinforcement Learning

3)github.com
google-research / xirl/
kevinzakka / x-magical

タイトルとURLをコピーしました