ロボット学習のためにシミュレーションと現実のギャップを埋める(2/4)

１．ロボット学習のためにシミュレーションと現実のギャップを埋める(2/4)まとめ

・ロボットが直面するシミュレーションと現実世界のギャップを埋めるためには以下が重要
・シミュレートされた経験がニューラルネットワークにとって現実世界と変わらないようにする
・シミュレートされた経験と実際の経験を統合して学習結果の転移効率を最大化する

２．シミュレーションと現実世界の経験を統合

以下、ai.googleblog.comより「Closing the Simulation-to-Reality Gap for Deep Robotic Learning」の意訳です。元記事は2017年10月30日、Konstantinos BousmalisさんとSergey Levineさんによる投稿です。

シミュレートされた経験を流用する前に、現実世界の経験のみを使ってロボットに学習時に見たことのない物体を確実に掴むことを学習させるためには何が必要か考えてみましょう。

以前の投稿で、Google BrainチームとXのロボットチームが、単一の単眼カメラの画像を使用するだけで、様々な一般的な物体を掴む方法をロボットに学習させる手法について解説しました。

これには数万から数十万回、物体を掴ませる訓練が必要です。これは、時間換算すると実世界で数千時間の経験を積ませた事に相当します。

複数のロボットを使って分散して学習する事で時間短縮は可能ですが、メンテナンスや器具の摩耗を含む実世界でデータ収集を行う事の困難さにより、これらの種類のデータ収集作業には依然としてかなりの時間がかかります。

こういった事情により、市販のシミュレーターを使用して、仮想環境で物体の把握試験などの基本的な感覚運動スキルを学習する事は魅力的な代替手段です。シミュレーションでロボットに物体の把握を学習させる場合、任意の数のマシンを使って簡単に並列化でき、劇的に短い時間(例えば、何カ月単位ではなく何時間単位)と、わずかなコストで大量の経験を積ませる事ができます。

視覚情報を元に行われるロボット操作が直面する現実世界のギャップを埋めるためには、以下のいくつかの重要な質問に答える必要があります。

第一に、シミュレーションをどのように設計すれば、シミュレートされた経験がニューラルネットワークにとって現実世界と変わらないようにできるでしょうか？

第二に、シミュレートされた経験と実際の経験をどのように統合すれば、現実世界へ学習結果を転移する効率を最大化できるでしょうか？

これらの質問を、特に挑戦的で重要なロボット操作タスク、すなわち多種多様な物体を視覚からの情報を元に掴みあげる事、を想定して検討しました。

最大のパフォーマンスを得るために、「シミュレーションと現実世界の経験を統合する様々な手法」と「様々なシミュレーション設計」を組み合わせて、効果を広範囲にわたって評価しました。

シミュレートされたデータセットと現実世界のデータセットを収集するために使用した環境

左：シミュレーションによる物体把握を学習する際に使用される画像
右：日常世界に存在する様々な物体を使用した実世界の訓練時に使用される画像
どちらの場合も、ロボットアームが存在する場合と存在しない場合の２種類の画像がペアが表示されます。

シミュレーションに関しては、多様な選択肢から選択する必要があります。物体のタイプ、外観、ランダム要素を入れるかどうか、および実世界への適応を支援できる追加情報をシミュレーターから抽出するかどうかなど。

そして、シミュレーションで使用する物体の種類は特に重要です。これは以下の問いをもたらします。

「シミュレーションで使用する物体はどの程度現実的である必要がありますか？」

手続きに沿って生成された(procedurally-generated)ランダムな物体を使用する事は最も望ましい選択です。これらの物体はオンデマンドで簡単に生成可能で、タスクの要件を変更した場合でもパラメータの変更だけで対応可能で簡単だからです。しかし、それらの物体は現実に存在する物体ではないため、それらを掴んだ経験を現実世界に転移しても役に立たないかもしれません。

ShapeNetなどの広く使用されている、公開モデルライブラリから現実世界の3Dオブジェクトモデルを借用することも別の選択肢です。しかし、研究結果が実験に使用した特定のモデルの特性に影響を受けるので、限定的なものになってしまいます。

本研究では、ShapeNetから借用した現実世界の3Dオブジェクトモデルと手続きに沿って生成された物体を使用した場合の効果を比較しました。そして、プログラムで生成されたランダムな物体を使用するだけで、シミュレーションから現実に効率的に経験を転移できるだけでなく、ShapeNetの現実世界の物体を使用するよりも現実世界への対応力が向上する事が判明しました。