ロボット学習のためにシミュレーションと現実のギャップを埋める(3/4)

  • 2019.12.04
  • AI
ロボット学習のためにシミュレーションと現実のギャップを埋める(3/4)

1.ロボット学習のためにシミュレーションと現実のギャップを埋める(3/4)まとめ

・シミュレーションのランダム化は現実世界の環境に一般化する上で有望な手法である事がわかっている
・外観のランダム化とダイナミクスのランダム化について個々に評価し有望性を測定した
・ランダム化は重要ではあるが効果的なドメイン適応を含める方が視覚ベースの操作関しては有望

2.GANによる画像の生成

以下、ai.googleblog.comより「Closing the Simulation-to-Reality Gap for Deep Robotic Learning」の意訳です。元記事は2017年10月30日、Konstantinos BousmalisさんとSergey Levineさんによる投稿です。


シミュレーションで使用された生成されたオブジェクトの一部

 


シミュレーションで使用されたShapeNetオブジェクトの一部

 


現実世界の物体を掴む経験を収集するために使用された物理オブジェクトの一部

シミュレーション環境に関して決めなければいけないもう一つの事は、シミュレーションのランダム化に関してです。

シミュレーションのランダム化は、以前に行われた研究で現実世界の環境に一般化する上で有望な手法である事がわかっています。

私達は更に、
・外観のランダム化(仮想環境の様々な視覚コンポーネントのテクスチャをランダムに変更)
・ダイナミクスのランダム化(オブジェクトの質量や摩擦特性をランダムに変更)
の2つの効果を個別に評価することにより、ランダム化の一般化効果を評価しました。

私達が今回実行したタスクに関しては、外観のランダム化はプラスの効果がありました。しかし、これは一般化を支援するためにドメイン適応を使用しなかった場合であり、ドメイン適応を含めた場合は効果がありませんでした。

ダイナミクスのランダム化を使用しても、今回のタスクに関しては大幅な性能改善は示されませんでした。しかし、ダイナミクスのランダム化は他のタスクではもっと効果を発揮する可能性があります。

これらの結果は、ランダム化はシミュレーションから実世界へ学習結果を転移する際に重要ではありますが、効果的なドメイン適応を含める方が、視覚ベースの操作タスクに対してはより優れた効果が出る可能性があることを示唆しています。

最後に、今回私達が抽出してドメイン適応に使用した情報は、パフォーマンスに大きな影響を与えます。

今回提案した手法の1つでは、情報としてシミュレーション画像から抽出したセマンティックマップ、つまりシミュレートされた画像の各画素についての情報を利用します。以下で説明するように、この情報を使用して、今回のドメイン適応アプローチに、意味的に意味を持つ(semantically-meaningful)現実的なサンプルを作成して適用します。

私達が今回使用したアプローチは、GANです。これはGoodfellowらが提案した強力なアイデアです。

GraspGANと呼ばれる「シミュレートされた経験」と「現実世界の経験」を統合するこのアプローチは、シミュレーターによって生成された合成画像とそのセマンティックマップを入力として受け取り、実世界の画像に似せた偽の合成画像を生成します。

このフレームワークでは、畳み込みニューラルネットワークの生成器が入力として合成画像を受け取り、もう一つのニューラルネットワークである弁別器が本当の現実世界の画像と区別できないような偽画像を生成しようとします。

生成器と弁別器は同時に訓練され、共に改善されていくため、最終的に真に迫った現実的な画像を生成できる生成器になります。そして、この画像を把握モデルの学習に利用し、現実世界に一般化可能なように学習させていくのです。

これらの画像が有用であることを確認する1つの方法は、合成画像のセマンティックマップを使用してジェネレータを固定することです。このマスクによる推論を補助タスクとして使用する事で、生成器は、意味を持つ合成画像を生成するように動機づけられます。この合成画像はシミュレートされた経験が帰属する元のラベルに対応します。

(訳注:例えば、ハサミの形のマスクを与えて、それをヒントに画像を合成させれば、ハサミの形状の合成画像が出来るし、それはハサミを意味する画像だってわかりますよね、って事を言ってるのだと思います)

私達は、合成したシミュレーション画像と実際の画像の両方を使用して、ディープビジョンベースの把握モデルをトレーニングしました。そして、ドメイン不変モデルの作成に役立つ特徴レベルのドメイン適応手法を使用して、ドメインシフトをさらに追及しようとしました。

3.ロボット学習のためにシミュレーションと現実のギャップを埋める(3/4)関連リンク

1)ai.googleblog.com
Closing the Simulation-to-Reality Gap for Deep Robotic Learning

2)arxiv.org
Using Simulation and Domain Adaptation to Improve Efficiency of Deep Robotic Grasping

3)sites.google.com
3D Models Procedurally Generated Random Objects