MT-OptとActionable Models：複数ロボットで自動データ収集を行って初見タスクを実行可能にする(1/3)

１．MT-OptとActionable Models：複数ロボットで自動データ収集を行って初見タスクを実行可能にする(1/3)まとめ

・ロボットの自律運用を可能にするためには数千時間単位でロボットを動かす必要がある
・NLPにおける事前トレーニングのように他スキルを学習する際の労力を償却できないか考えた
・MT-OptとActionable Modelsはマルチタスク自動データ収集とゼロショットを可能にする

２．MT-OptとActionable Models

以下、ai.googleblog.comより「Multi-Task Robotic Reinforcement Learning at Scale」の意訳です。元記事の投稿は2021年4月19日、Karol HausmanさんとYevgen Chebotarさんによる投稿です。

直近紹介した「目指すべき最終的な状態の画像」を提供するだけでその目標に向かってくれる強化学習である再帰的分類で十分驚いたのですが、Actionable Modelsは更にそれの汎用性を増したオフライン版で且つ、MT-Optと言う大規模データ収集メカニズムとの連携が出来ているとの事で、うーん、ここまでくるともう人間の方が下位互換に思えてきます。

しかし、まぁ、人間の活躍する場(と同時にお給料)がなくなる、と言う意味では脅威ではあるのですが、介護とか支援の現場で本当にパーソナルに日常生活を支援してくれる低コストロボットが出来たら大変心強く、ありがたい事でもあるので本当に技術の進む方向性、使い方次第なのでしょうね。

自動レジが珍しくなくなってきた昨今、人間にコーヒーを入れてもらうのは一部の高級店舗だけの贅沢になるのかしらと思いつつ選択したアイキャッチ画像は大規模組立工場現場のようにも見えるスターバックスでクレジットはPhoto by Andreeew Hoang on Unsplash

汎用ロボットを最も役立てるためには、清掃、メンテナンス、配送などの様々なタスクを実行できる必要があります。ただし、オフライン強化学習(RL)を使用して、1つのタスク(物体の把握など)をトレーニングする場合でも、エージェントが以前に収集したデータをトレーニングに使用して試行錯誤する学習方法は簡単には実現できません。

大規模なロボットシステムの自律運用を可能にするために必要な重要なエンジニアリング作業に加えて、数千時間単位でロボットを動かす必要が出て来る可能性があります。

従って、現在のロボット学習方法を使用して汎用の日常生活を支援するロボットを構築するための計算コストは、タスクの数が増えるにつれて法外に高くなります。

様々なロボットに様々なタスクを実行させてデータを収集する、複数のロボットを使ったマルチタスクデータ収集の風景

自然言語処理(NLP:Natural Language Processing)やコンピュータービジョンなどの他の大規模な機械学習研究領域では、複数のスキルを学習する労力を少しずつ償却させるために、いくつかの戦略が適用されてきました。例えば、大規模な自然言語データセットで事前トレーニングを行う事により、質問回答や感情分析など、複数のタスクを少数回またはゼロ回(ゼロショット)学習するだけでタスクの実行が可能になります。

ただし、ロボットで独自のデータを収集するためにロボットのスキル学習をさせる際には独自のやり方と課題があります。このプロセスの自動化は膨大なエンジニアリング作業が必要であり、様々なロボットによって収集された過去のロボットデータを効果的に再利用することは未解決の問題です。

本日、ロボットに強化学習を大規模に適用させるための2つの新しい進歩を紹介します。

「MT-Opt」は自動データ収集とマルチタスクRLトレーニングのための新しいマルチタスクRLシステムです。

「Actionable Models」は取得したデータを目標条件付きRL(goal-conditioned RL)に活用します。

MT-Optは、規模拡大可能なデータ収集メカニズムです。これは、現実のロボットを使った様々なタスクで800,000を超えるエピソードを収集するために使用されます。そして、比較対象手法と比べて平均して約3倍の改善をもたらすマルチタスクRLアプリケーションを成功例として示します。

更に、ロボットは、その広範なマルチタスクデータセットを使用して新しいタスクをすばやく習得できます。(1日未満のデータ収集で新しいタスクに微調整できます)

Actionable Modelsは、実用的なロボットポリシーでもある「暗黙の世界モデル(implicit model of the world)」を使ってトレーニングすることにより、特定のタスクや報酬が存在しない場合でも学習を可能にします。これにより、ロボットが(視覚的に明確な目標を介して)実行できるタスクの数が大幅に増加し、下流タスクのより効率的な学習が可能になります。