ロボット学習のためにシミュレーションと現実のギャップを埋める(4/4)

１．ロボット学習のためにシミュレーションと現実のギャップを埋める(4/4)まとめ

・合成画像とドメイン適応のみで現実世界のデータを使用せずとも一定レベルのパフォーマンスを達成
・シミュレーションと現実世界の経験を統合するためにドメイン適応を使用することは有望な選択肢
・シミュレータとドメイン適応の効果を広範囲に測定したので自ら実践する際に参照できる

２．ドメイン適応の効果

以下、ai.googleblog.comより「Closing the Simulation-to-Reality Gap for Deep Robotic Learning」の意訳です。元記事は2017年10月30日、Konstantinos BousmalisさんとSergey Levineさんによる投稿です。

シミュレートされた画像を現実的な画像に落とし込むGraspGAN、及びセマンティックマップとそれによる推論は以下の動画を参照してください。

合成データとドメイン適応を使用することにより、ランダムに生成された物体のみを使用したシミュレーションで、一定レベルのパフォーマンスを達成できます。

つまりこれは、現実世界のサンプルを使わなくてもパフォーマンスを向上できるという事であり、その結果、学習に必要な現実世界のデータ数を最大50倍削減できます。

更にこれは、把握対象の物体に関する情報が事前に(サイズ制限以外に)存在せずとも現実世界で動作可能である事を意味します。

今回の私達の研究は、様々な量の現実世界のデータでパフォーマンスを向上できる事、および現実世界のラベルのなしデータとGraspGANによる手法のみを使用する事でパフォーマンスの向上が達成可能な事を示しました。本来は数十万規模の現実世界のラベル付けデータを使って達成されるパフォーマンスと同等のパフォーマンスが、ラベルなしデータを使って達成できました。

これは、ラベル付けされた経験を収集する代わりに、ラベル付けされていない生の画像を記録し、それらを使用してGraspGANモデルをトレーニングし、シミュレーションでスキル自体を学習するだけで十分であることを示唆しています。

今回の研究はシミュレーションと現実のギャップに関する全ての問題に対処したわけではありませんが、シミュレーションと現実世界の経験を統合するためにシミュレーションとドメイン適応を使用することは、ロボットを訓練するための魅力的な選択肢であると考えてています。

最も重要なことは、
・実世界のラベル付きデータの量
・シミュレータとドメイン適応手法の設計
など、様々なパターンについて、パフォーマンスが向上する度合いを広範囲に評価したことです。

この評価は、実践として設計を決定する際に参照でき、今回用いた手法のようなアプローチを実験の設計に組み込むことの長所と短所を比較検討するためのガイドとして役立てることができます。

この研究は、K. Bousmalis, A. Irpan, P. Wohlhart, Y. Bai, M, Kelcey, M. Kalakrishnan, L. Downs, J. Ibarz, P. Pastor, K. Konolige, S. Levine, V. Vanhouckeによって行われました。 Google Researchの同僚とこの研究に専門知識と時間を提供してくれたXの皆さんに特に感謝します。論文の初期のプレプリントはarXivで入手できます。

シミュレーションで使用したオブジェクトのコレクションは、Laura Downsによってsites.google.comで公開されています。