DeformableRavens：変形可能な物体を操作することを学ぶ(2/2)

１．DeformableRavens：変形可能な物体を操作することを学ぶ(2/2)まとめ

・硬い物体の再配置研究に使用したTransporter Networkに目標条件付けを統合
・バッグを開いて物をいれるなど柔軟に指定された形状を操作できる事がわかった
・他の強化学習手法の適用や物理環境で動作させるための研究が今後は予定されている

２．DeformableRavensの特徴

以下、ai.googleblog.comより「Learning to Manipulate Deformable Objects」の意訳です。元記事の投稿は2021年5月14日、Daniel SeitaさんとAndy Zengさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by engin akyurt on Unsplash

目標条件付きTransporter Network
シミュレートされたベンチマークで目標条件付きタスクを補完するために、以前にリリースされたTransporter Networkアーキテクチャに目標条件付けを統合しました。

Transporter Networkは、視覚入力から空間変位を推測するために深い特徴表現を再配置するアクション中心のモデルアーキテクチャです。これにより、剛体物体の再配置操作でうまく機能する事が出来ます。

このアーキテクチャは、「現在の画像」と「目的となる物体の最終形状が含まれる画像」の両方を入力として受け取り、両方の画像の深い視覚的特徴を計算します。

次に、要素ごとに乗算を使用して特徴を組み合わせ、ピックアンドプレース相関を調整して、シーン内の剛体物体と変形可能物体の両方を操作します。

Transporter Networkアーキテクチャの強みは、視覚画像の空間構造を保持することです。これにより、画像ベースの目標条件付けをより単純な特徴マッチング問題に再定式化し、畳み込みネットワークによる学習効率を向上させる誘導バイアスが提供されます。

目標条件付けを含むタスクの例を以下に示します。緑のブロックを黄色のバッグに入れるために、ロボットは、ブロックを入れる前に、黄色のバッグの上部の開口部を広げて開くためにマルチステップな一連のアクションを実行できるように空間特徴を学習する必要があります。ブロックを黄色いバッグに入れた後、デモンストレーションは成功裏に終了します。

もし、ゴール画像でブロックが青いバッグに入れられた場合、デモンストレーターはブロックを青いバッグに入れる必要があります。

DeformableRavensの目標条件付きタスクの例
左：目的の目標構成でのUR5ロボットとバッグ、および正面カメラから見た1つのアイテム
中央：このセットアップを上から見下ろした投影画像。サイズは160×320で、タスクの成功基準を指定するための目標画像として渡されます。
右：アイテムが青いバッグではなく黄色のバッグに入っていることを示すデモポリシーのビデオ

結果
私達の研究結果は、目標条件付きTransporter Networksにより、エージェントがターゲット位置を示すテスト時に使った視覚的目印を用いずとも、変形可能な形状を柔軟に指定された形状に操作できることを示唆しています。

また、2Dおよび3Dの変形可能物体を使用してタスクをテストすることにより、変形可能な物体を操作するためにTransporter Networksを使用した従来の研究結果を大幅に拡張します。

結果はさらに、提案されたアプローチが、入力として画像の代わりに真のポーズと頂点位置を使用することに依存する代替アプローチよりもサンプル効率が高いことを示唆しています。例えば、学習したポリシーは、バッグに入れるタスク(bagging tasks)を効果的にシミュレートできます。また、ロボットがアイテムをどのバッグに入れるかを推測できるように目標画像を提供することもできます。

Transporter Networksを使用してトレーニングされたポリシーの例
目的は、最初にバッグを開き、次に1つ(左)または2つ(右)のアイテムをバッグに入れ、次にバッグを指定位置に動かす事です。左のアニメーションは、わかりやすくするために拡大されています。

目標条件付きトランスポーターネットワークを使用して学習したポリシーの例
左：正面カメラからの視点
中央：目標条件付きTransporter Networkが入力として受け取る目標画像。これは、アイテムが誤目標である青いバッグではなく赤いバッグに入れられる必要があることを示しています。
右：誤目標バッグ(この場合は黄色)ではなく、赤いバッグにアイテムを入れる学習済みのポリシー。

研究者の皆さんは、オープンソースとして公開されたソースコードをチェックして、本研究に基づいて環境を構築し、シミュレートされた環境を試すことをお勧めします。詳細については、私たちの論文をチェックしてください。

今後の作業
本研究は、実験時に観察された失敗時の影響緩和を含む、将来の開発のためのいくつかの方向性を明らかにしました。

以下に示すように、1つの障害は、ロボットがバッグを上に引っ張ってアイテムを落下させてしまう事です。もう1つは、ロボットが不規則なバッグの外面にアイテムを置くと、アイテムが落下してしまう場合です。将来のアルゴリズムの改善により、より高い頻度で動作するアクションが可能になり、ロボットがリアルタイムで反応してそのような障害に対抗できるようになる可能性があります。

バッグ操作タスクに関する学習済みのトランスポーターベースのポリシーからの失敗事例の例
左：ロボットがキューブをバッグの開口部に入れていますが、バッグを引っ張る動作の際にキューブをバッグに入れたままにする事ができません。
右：ロボットはキューブをバッグの開口部に入れる事ができず、キューブをより適切な場所に挿入するためのリカバリー行動も実行できません。

進歩のもう1つの分野は、事例ベースの制御やモデルベースの強化学習など、専門家によるデモンストレーションを必要としない手法を使用して、変形可能な物体操作のためにTransporterNetworkベースのモデルをトレーニングすることです。
最後に、進行中のパンデミックは物理ロボットの利用を制限しているため、今後の作業では、システムを物理的なバッグを使って動作させるために必要な要素を調査し、システムを様々なタイプのバッグで動作するように拡張します。

謝辞
この調査は、2020年夏にGoogleのニューヨークオフィスで行われたDaniel Seitaのインターンシップ中に実施されました。協力者のPete Florence, Jonathan Tompson, Erwin Coumans, Vikas SindhwaniそしてKen Goldbergに感謝します。