MT-OptとActionable Models：複数ロボットで自動データ収集を行って初見タスクを実行可能にする(3/3)

１．MT-OptとActionable Models：複数ロボットで自動データ収集を行って初見タスクを実行可能にする(3/3)まとめ

・MT-Optでデータ収集が容易になったがより広いタスクを学習させる事を検討した
・目標条件付き学習は「目の前の風景」を特定の目標構成に到達させる事を学習させる
・オフラインのモデルフリーRLを介して目標条件付きポリシーを学習させた

２．Actionable Modelsとは？

以下、ai.googleblog.comより「Multi-Task Robotic Reinforcement Learning at Scale」の意訳です。元記事の投稿は2021年4月19日、Karol HausmanさんとYevgen Chebotarさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Andreeew Hoang on Unsplash

Actionable Modelsを使った学習
タスクの厳密な定義を提供することで、MT-Optの自律的なデータ収集が容易になりますが、学習可能な動作の数が固定セットに制限されてしまいます。

同じデータからより広い範囲のタスクを学習できるようにするために、目標条件付き学習(goal-conditioned learning)を使用します。つまり、「ロボットの目の前の風景」を特定の「目標構成(goal configurations)」に到達させる事を学習させます。「特定の目標構成」は目標画像を使って指定します。

将来の世界がどうなるかの予測を学習する明示的なモデルベースの手法やオンラインデータ収集を採用するアプローチとは対照的に、このアプローチは、オフラインのモデルフリーRLを介して目標条件付きポリシーを学習します。

目標状態に到達することを学ぶために、収集したデータセット内のすべての軌道とサブシーケンスに対して、事後に後知恵で再ラベル付けを実行します。

そして、完全にオフラインの方法で目標条件付きQ関数をトレーニングします。(再帰的分類(Recursive Classification)のように成功例の固定セットを使用してオンラインで学習するのとは対照的です)。

この設定での1つの課題は、後知恵で「ポジティブな」とラベルが付け直された事例からのみ学習することによって引き起こされる分布の変化(distributional shift)です。

これは、人為的なネガティブアクションを使用して初見のアクションに対するQ値を最小化する保守的な戦略を採用することによって対処します。

更に、一時的に延長された目標(temporary-extended goals)を達成できるようにするために、複数のエピソードにわたって目標を連鎖させる手法を紹介します。

Actionable Modelsは、すべての中間目標でサブシーケンスにラベルを付け直し、人為的な負のアクションでQ値を正規化します。

Actionable Modelsを使用したトレーニングにより、システムは、物体の把握、コンテナの配置、物体の再配置など、視覚的に示されるスキルの幅広いレパートリーを学習できます。

モデルは、トレーニングデータ内には存在しない新しい物体や視覚的な目的に一般化することもできます。これは、世界に関する一般的な機能知識を学習する能力を示しています。また、事前にトレーニングされた目標条件付きモデルを微調整するか、トレーニング中に目標に到達する補助目的を使用することで、下流の強化学習タスクをより効率的に学習できることも示します。

Actionable Modelsが学習できるタスクの例(画像で目標を指定)

結論
MT-OptモデルとActionable Modelsの両方の結果は、単一モデル内の大規模で多様な実ロボットデータセットから多くの異なるタスクを収集して学習することが可能であることを示しています。

これにより、多くのスキルで学習コストを効果的に削減する事ができます。これは、多くの有用なサービスを実行するために更に規模を拡大でき、下流タスクを学習するための開始点として機能する汎用的なロボット学習システムに向けた重要なステップであると考えています。

本投稿は、「MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale」と「Actionable Models: Unsupervised Offline Reinforcement Learning of Robotic Skills」の2つの論文に基づいています。MT-OptおよびActionable ModelsのプロジェクトWebサイトに追加情報とビデオがあります。

謝辞
この研究は、Dmitry Kalashnikov, Jake Varley, Karol Hausman, Yevgen Chebotar, Ben Swanson, Rico Jonschkowski, Chelsea Finn, Sergey Levine, Yao Lu, Alex Irpan, Ben Eysenbach, Ryan Julian そして Ted Xiaoによって実施されました。

以下の皆さんに特に感謝します。Josh Weaver, Noah Brown, Khem Holden, Linda Luu そして Brandon Kinmanのロボット操作サポート。分散型の学習およびテストインフラストラクチャを支援してくれた Anthony Brohan。ビデオとプロジェクトメディアのヘルプを提供してくれたTom Small。Julian Ibarz, Kanishka Rao, Vikas Sindhwani and Vincent Vanhouckeのサポート。Tuna ToksozとGarrett Peakeのbinのリセットメカニズムを改善。基礎となる制御スタックを支援してくれたSatoshi Kataoka, Michael Ahn, 及びKen Oslund。

そしてGoogleの他のロボティクスチームによる、全体的なサポートと励ましに感謝します。これら全ての信じられないほどの貢献により、この研究が可能になりました。