Transporter Networks：物体の再配置問題を改善してロボットの性能を向上(1/2)

１．Transporter Networks：物体の再配置問題を改善してロボットの性能を向上(1/2)まとめ

・本の山を積み重ねるなどの物体の再配置問題は基本的なスキルだがロボットにとって困難
・従来のオブジェクト中心の特徴表現では変形可能な物体や極端な形状を捕捉する事が困難
・Transporter Netは3D空間で塊を移動する方法を学習する事で再配置問題を扱う新手法

２．Transporter Networksとは？

以下、ai.googleblog.comより「Rearranging the Visual World」の意訳です。元記事の投稿は2021年2月16日、Andy ZengさんとPete Florenceさんによる投稿です。

このレベルのタスクは具体的な動きを定義する事が出来ないので、自律的に学習出来るようなロボットはまだまだ先の未来かな、と思っていましたが、ロボティクス＋AIの進化の速度は凄まじいですね。

アイキャッチ画像のクレジットはPhoto by Rhys Moult on Unsplash

物体の再配置問題(本棚の本の整理、ダイニングテーブルでの調理器具の移動、コーヒー豆の山を均一にならす事など)は、ロボットが多様で構造化されていない世界と物理的に対話できるようにする基本的なスキルです。人々にとっては簡単ですが、そのようなタスクを達成することは、高レベルと低レベルの両方の知覚的推論を必要とするため、実働可能な機械学習(ML)システムにとっては未解決の研究課題のままです。例えば、本の山を積み重ねるためには、本の端が互いに整列してきちんとした山を形成することを保証しながら、本を積み重ねるべき場所と順序を検討しなければなりません。

MLの多くの応用領域で、モデルアーキテクチャの単純な違いは、大きく異なる一般化属性を示す可能性があります。従って、再配置問題の単純な基礎となる要素を引き立てる特定のディープネットワークアーキテクチャがあるかどうかを疑問に思うかもしれません。

例えば、畳み込みアーキテクチャは、平行移動不変性(translational invariance)をエンコードするためにコンピュータビジョン分野で一般的に用いられており、画像がシフトしても同じ応答を生成します。

一方、Transformerアーキテクチャは、自己注意(self-attention)を利用して遠く離れた文脈依存関係を捕捉できるため、言語処理で一般的です。

ロボット工学アプリケーションでは、一般的なアーキテクチャ要素の1つは、学習したモデル内でポーズ、キーポイント、オブジェクト記述子などのオブジェクト中心の特徴表現(object-centric representations)を使用することです。

ただし、これらの特徴表現には追加のトレーニングデータ(多くの場合、手動で注釈が付けられます)が必要になり、更に変形可能なもの(例：子供用粘土)、液体(蜂蜜)、または山積みになった物(刻んだ玉ねぎ)などの難しいシナリオを説明するのに苦労します。

本日、CoRL 2020で出版物および本会議として登場した、視覚ベースの再配置タスクを学習可能なシンプルなモデルアーキテクチャであるTransporter Networkを紹介します。Transporter Netsは、オブジェクト中心の特徴表現への依存を回避する3D空間理解の新しいアプローチを使用します。これにより、視覚ベースの操作に一般化しますが、比較対象とした代替手法よりもはるかにサンプル効率が高くなります。

結果として、これらは現実世界のロボットで訓練すると速く実用的です。また、Transporter Netsのオープンソース実装を、10の視覚ベースの操作タスクを新しくシミュレートした一連のベンチマークであるRavensと一緒に公開します。

Transporter Networks：ロボット操作のための視覚世界の再編成
Transporter Networkアーキテクチャの背後にある重要なアイデアは、3D空間で塊(chunk)を移動する方法を学習することで、再配置問題を定式化できるということです。

オブジェクトの明確な定義(あらゆる極端なケースを捕捉するのに苦労することになります)に依存させるのではなく、3D空間を「再配置可能な原子単位として機能するものの」と定義します。

これは、はるかに広い定義であり、これにより、オブジェクト、オブジェクトの一部、または複数のオブジェクトなどを広く包含することができます。

Transporter Netsは、3D視覚世界の深い特徴表現を捕捉し、その一部をそれ自体に重ね合わせて3D空間のさまざまな可能な再配置を想像することにより、この構造を活用します。

次に、トレーニング中に見たもの(例えば、専門家のデモンストレーション)に最も一致する再配置を選択し、それらを使用してロボットのアクションをパラメータ化します。

この定式化により、Transporter Netは見た事のないオブジェクトに一般化でき、データ内の幾何学的対称性をより有効に活用できるため、新しいシーン構成を推定することができます。
Transporter Netsは、ロボット操作のさまざまな再配置タスクに適用でき、アフォーダンスベースの操作やTossingBotなど、把握と投げにのみ焦点を当てた以前のモデルを超えて拡張できます。