RLDS: 強化学習用データセットの生成と共有をやりやすくするツール群(1/2)

１．RLDS: 強化学習用データセットの生成と共有をやりやすくするツール群(1/2)まとめ

・強化学習アルゴリズムの多くはエージェントが環境と大量に相互作用する学習データが必要
・他で収集されたデータセットを再利用する事もできるが仕様がバラバラで統一感がない
・RLDSは強化学習用のデータの記録、再生、操作、注釈、共有を共通化するのツール群

２．RLDSとは？

以下、ai.googleblog.comより「RLDS: An Ecosystem to Generate, Share, and Use Datasets in Reinforcement Learning」の意訳です。元記事は2021年12月1日、Sabela RamosさんとLéonard Hussenotさんによる投稿です。

環境と相互作用しているエージェントを表現したかったアイキャッチ画像のクレジットはPhoto by Luku Muffin on Unsplash

強化学習(RL:Reinforcement Learning)や逐次意思決定アルゴリズムの多くは、最適なパフォーマンスを得るために、エージェントが環境と大量にヤリトリをして学習データを生成することを必要とします。

これは非常に非効率的であり、特に、実際のロボットや人間の専門家との対話によってデータを収集するような場合は大量データの生成がなおさら困難になります。

この問題は、外部の知識ソースを再利用することで緩和することができます。例えば、合成エージェントがアタリゲームをプレイしたデータを含むRL Unplugged Atariデータセットなどです。

しかし、こういったデータセットの数は非常に少なく、タスクや逐次的意思決定が必要なタスクにおけるデータ生成方法は様々(例：専門家が作成したデータまたはノイズの多いデモデータ、人間または合成した相互作用データなど)です。

そのため、全ての研究者がこれらの少数の代表的データセットを使って研究することは現実的ではなく、データが十分に典型的であるとも言えないため、望ましいとも言い切れません。

さらに、これらのデータセットの中には、特定のアルゴリズムでしか動作しない形で公開されているものがあり、研究者がこのデータを再利用することを妨げています。例えば、環境と相互作用した順番を含めておらず、相互作用の結果をランダムに提供しているので、それらの間の時間的関係を再構築することが不可能なデータセットもあれば、わずかに異なるフォーマットでリリースされ、識別が非常に困難な微妙なバグを導入してしまうデータセットもあります。

このような状況のため、強化学習用データセット(RLDS:Reinforcement Learning Datasets)を公開します。RLDSは、オフラインRL、デモンストレーションからの学習、模倣学習など、逐次意思決定のためのデータの記録、再生、操作、注釈、共有のためのツール群です。

RLDSは、情報を失うことなく(例えば、ランダム化する代わりに相互作用の順番を維持する)データセットを簡単に共有し、基盤となる元の形式にとらわれず、ユーザーがより幅広いタスクで新しいアルゴリズムを迅速にテストできるようにするものです。

更に、RLDSは、合成エージェント(EnvLogger)または人間(RLDS Creator)が生成したデータを収集するためのツールや、収集したデータを検査・操作するツールを提供します。最終的には、TensorFlow Datasets(TFDS)との統合により、研究コミュニティとのRLデータセットの共有が容易になります。

RLDSを使用することで、ユーザーはエージェントと環境間のヤリトリを可逆かつ標準的なフォーマットで記録することができます。そして、このデータを様々なRLや逐次決定のアルゴリズムに供給したり、データ分析を行うために使用、変換することができます。

データセットの構造

RL、オフラインRL、模倣学習(imitation learning)のアルゴリズムは、非常に異なる形式のデータを使う可能性があり、データセットの形式が不明確な場合、基礎データを誤って解釈してしまう事でバグが発生しやすくなります。

RLDSは、データセットの各フィールドの内容と意味を定義することでデータフォーマットを明示し、あらゆるアルゴリズムの実装が要求するフォーマットに合わせて、このデータを再調整・変換するツールを提供します。

データフォーマットを定義するために、RLDSはRLデータセットの本質的に標準的な構造、すなわち、エージェントと環境の間の相互作用(ステップ)のシーケンス(エピソード)を利用します。エージェントは、たとえば、ルールベース/自動化コントローラー、正式なプランナー、人間、動物、またはこれらの組み合わせです。

これらのステップのそれぞれは、現在の観測、現在の観測に適用されたアクション、アクションを適用した結果として得られた報酬、および報酬と一緒に得られた割引(discount)を含んでいます。

ステップはまた、そのステップがエピソードの最初か最後か、あるいは観察が終末状態に対応するかどうかを示す追加情報を含みます。各ステップとエピソードは、環境関連またはモデル関連のデータを格納するために使用できるカスタムメタデータを含むこともできます。