RetinaGAN：シミュレーション環境から現実世界への転移を一般化(1/2)

１．RetinaGAN：シミュレーション環境から現実世界への転移を一般化(1/2)まとめ

・シミュレーションを使ってロボットを学習させると効率的だが現実世界への転移が難しい
・GANを使ってシミュレーション画像を現実画像に変換したいが変な変換が行われる時がある
・RL-CycleGANは画像変換前後の一貫性がタスクから見て保たれるようにして性能を向上

２．RL-CycleGANとは？

以下、ai.googleblog.comより「Toward Generalized Sim-to-Real Transfer for Robot Learning」の意訳です。元記事は2021年6月3日、Daniel HoさんとKanishka Raoさんによる投稿です。

CycleGANを使う手法は色々な場面で応用が効きそうだな、と思いながら選んだアイキャッチ画像のクレジットはPhoto by Carter Moorse on Unsplash

強化学習および模倣学習は、ロボットが自律的に環境内を移動する事や効率的に物体を扱う事を可能にし、それにより、実用的なアプリケーションの幅が広がります。

従来の研究では、ディープニューラルネットワークとロボットを使用して直接学習させる事で、カメラからの観察結果を理解してアクションを実行する事が可能になり、私たちを取り巻く構造化されていない世界と確実かつ安全に対話できることが実証されています。

ただし、直接学習させる方法を使って複雑なロボット操作タスクを一般化および拡張できますが、現実世界のロボットを使って数十万回規模で学習を行う必要があり、これは利用可能なロボットを必要な数だけ用意する事が困難な場合があります。

現実世界の機械ではなく、シミュレーション環境内の仮想ロボットを使ってより迅速かつ大規模に学習することで、この制約を緩和することができます。

しかし、シミュレーション環境が現実世界と厳密に一致しない事が原因で、一般にシミュレーションと現実世界のギャップ(sim-to-real gap)と呼ばれる課題が発生します。

ギャップの重要な原因の 1 つは、シミュレーションでレンダリングされた画像と実際のロボットカメラの観察結果との間の不一致に起因します。これにより、現実世界でのロボットのパフォーマンスが低下します。

これまで、このギャップを埋めるための研究では、「画素レベルのドメインアダプテーション(pixel-level domain adaptation)」と呼ばれる手法が採用されてきました。これは、合成画像を画素レベルで現実的な画像に変換します。

この手法の一例は、画像生成に非常に効果的なフレームワークである敵対的生成ネットワーク(GAN:Generative Adversarial Network)を使う GraspGAN であり、取り扱う領域のデータセットを指定して、シミュレーション環境の画像と現実世界の画像間の変換をモデル化します。

これらの疑似現実の画像は、一部の疑似現実のギャップを修正するため、シミュレーションで学習したポリシーは、実際のロボットでよりうまく実行されます。

ただし、GAN は画素レベルで画像を変換するため、ロボットタスクの学習に必要な複雑な特徴表現または構造が、任意に変更または削除される可能性があります。

上記の制限に対処するために、Google X の Everyday Robot Project と協力して、ロボット固有の一貫性を備えた GAN をトレーニングする RL-CycleGAN と RetinaGAN の 2 つの研究を紹介します。

これはロボットタスクの学習に特に必要な視覚的特徴を勝手に変更しないようにします。これにより、シミュレーションと現実世界の視覚的な相違を埋めることができます。

私達はこれらの一貫性がポリシー学習に不可欠な特徴をどのように保持するかを示します。タスク固有のチューニングを手動設計する必要性を排除できるため、これにより、このsim-to-real手法がタスク、領域、および学習アルゴリズムを通じて柔軟に機能することが可能になります。

RL-CycleGANを使用して、シミュレーションからリアルへの転移方法を説明し、RL でトレーニングされた現実世界の把握タスクで最先端のパフォーマンスを実証します。RetinaGAN を使用して、私達は本手法を拡張して、模倣学習でドアを開けるタスクを行います。

RL-CycleGAN
論文「RL-CycleGAN: Reinforcement Learning Aware Simulation-to-Real」では、現実世界の画像とシミュレート世界の画像間でタスクに関連する特徴の一貫性を確保します。これはシミュレーションから現実へ改作させるために CycleGAN の亜種を活用して実現します。

CycleGANは、変換後の画像を変換前の世界に改作させると元の画像と同一になることを保証します。これにより画像が表現する内容の保存が促進され、これは、サイクルの一貫性と呼ばれます。

改作された画像がロボット工学に役立つようにさらに促進するために、CycleGAN は、元の画像とGAN適応後の画像の両方でロボットのアクションが同じであることを保証する強化学習(RL)ロボットエージェントと共同でトレーニングされます。

つまり、ロボットアームが把握可能な物体の位置などのタスク固有の特徴表現は変更されませんが、GAN は、タスクレベルの決定に影響を与えない照明やテクスチャの違いを改作前後で変更する可能性があります。

RL-CycleGANの評価
ロボットの無差別把握タスクで RL-CycleGAN を評価しました。RL-CycleGAN で改作された 580,000 回の現実世界の試行とシミュレーションでトレーニングされたこのロボットは、94% の成功率で物体を把握し、従来の最先端のsim-to-real手法であるGraspGAN の 89% の成功率と 87% マークを超えています。シミュレーションなしの実際のデータのみを使用した場合、87% をマークしました。

わずか 28,000 回の試行で、RL-CycleGAN メソッドは 86% に達し、これは20倍のデータを使った以前のベースラインに匹敵します。シミュレーション画像と一緒に RL-CycleGAN 出力のいくつかの例を以下に示します。