Google Research Football：新しい強化学習環境(1/2)

１．Google Research Football：新しい強化学習環境(1/2)まとめ

・Google Research Footballは強化学習エージェントにサッカーをプレイさせる事ができる強化学習環境
・短期視点、長期視点、ボールのパスなどの概念の学習など自然なバランスが必要になり挑戦的な問題
・ミディアム以上の難易度は非常に困難で2億ステップの訓練を受けたIMPALAなどの分散アルゴリズムが必要

２．Football Environmentとは？

以下、ai.googleblog.comより「Introducing Google Research Football: A Novel Reinforcement Learning Environment」の意訳です。元記事の投稿は2019年6月7日、 Karol KurachさんとOlivier Bachemさんによる投稿です。

強化学習(RL)の目的は、ロボットや自動運転自動車などの実現に向けて、現実世界のアプリケーションを使用して取り巻く環境と対話させ、複雑なタスクを解決できるスマートなエージェントを訓練することです。

この分野の急速な進歩は、レトロなAtariのコンソールゲーム、古代から伝わる碁、またはDota 2やStarcraft 2などのプロ同士の大会が開催されるような人気ゲームをエージェントにプレイさせる事によって促進されてきています。ゲームの環境であれば、強化学習エージェントは安全で再現性のある方法でアイデアを迅速にテストできます。フットボールの試合は、短期的なコントロール、ボールのパスなどの概念の学習、および高度な戦略の間で自然なバランスが必要とされるため、RLにとって特に挑戦的です。

本日、Google Research Football Environmentが発表されました。これは、エージェントが世界で最も人気のあるスポーツ、すなわちフットボールを習得することを目的とした新しいRL環境です。Football Environmentは、人気のあるフットボールのビデオゲームをモデルにしており、エージェントがチーム内の1人またはすべてのフットボール選手をコントロールし、ゴールを決めるために相手の防御を克服する方法を学びます。

Football Environmentには、高度に最適化されたゲームエンジン、Football Benchmarksと呼ばれる厳しい一連の研究課題、そしてFootball Academy、次第に難しくなっているRLシナリオのセットなど、いくつかの重要なコンポーネントがあります。調査を容易にするために、私たちはGithubに基礎となるオープンソースコードのベータ版をリリースしました。

Football Engine
Football Environmentの中核は、Football Engineと呼ばれる高度なサッカーシミュレーションです。これは、Githubで公開されているGameplay Footballを大幅に変更したバージョンに基づいています。対戦する2チームの入力操作に基づいて、ゴール、ファウル、コーナーキック、ペナルティキック、オフサイドを含むフットボールの試合をシミュレートします。

Football Engineは高度に最適化されたC++コードで記述されているため、GPUが利用可能な環境でも不可能な環境でも実行可能で、市販のマシンで動かす事ができます。これにより、1台の6コアマシンで1日あたり約2500万ステップのパフォーマンスを達成できます。

Football Engineは、キックオフ(左上)、ゴール(右上)、ファウル、カード(左下)、コーナーキックとペナルティキック(右下)、オフサイドなど、すべての主要なフットボールルールをサポートする高度なフットボールシミュレーションです。

フットボールエンジンには、強化学習向けの機能が追加されています。まず、プレーヤーの位置などの意味情報を含むさまざまな状態の特徴表現からの学習と、未加工の画素状況からの学習が可能です。

次に、ランダム性の影響を調べるために、環境と対戦相手のAIアクションの両方にランダム性がある確率モード(デフォルトで有効)と、ランダム性がない決定論的モードの両方で実行できます。第三に、Football Engineは、広く使用されているOpenAI Gym APIと互換性があります。最後に、研究者は、キーボードまたはゲームパッドを使用して、お互いに、またはそのエージェントと対戦することで、ゲームに対する感覚を得ることができます。

Football Benchmarks
Football Benchmarksでは、私たちはFootball Engineを使った強化学習研究のためのベンチマークのセットを提案します。これらのベンチマークの目標は、この目的のために手作業で設計された固定されたルールベースの対戦相手に対して「普通の」フットボールの試合をすることです。Football Easy Benchmark、Football Medium Benchmark、Football Hard Benchmarkの3つのバージョンがあります。これらは、対戦相手の強さだけが異なります。

参考として、2つの最先端の強化学習アルゴリズムであるDQNとIMPALAのベンチマーク結果を提供します。どちらも単一マシン上の複数のプロセスで実行することも、多数のマシン上で同時に実行することもできます。

私達の結果は、Football Benchmarksは様々な困難を伴う興味深い研究問題であることを示しています。特に、Football Easy Benchmarkはシングルマシンアルゴリズムの研究に適しているように見えますが、Football Hard Benchmarkは、大規模に分散されたRLアルゴリズムでさえも困難であることが証明されています。

環境の性質とベンチマークの難しさに基づいて、サンプル効率の高いRL、まばらな報酬、モデルベースのRLなどの現在の科学的課題を調査するのに役立つと期待しています。

２種の強化学習アルゴリズムが各ベンチマークと対戦した際の平均ゴール差。Easyの対戦相手は、2000万ステップの訓練を受けたDQNエージェントによって倒す事が可能です。一方、MediumとHardの対戦相手を倒すためには、2億ステップの訓練を受けたIMPALAなどの分散アルゴリズムを必要とします。