AlphaStar：StarCraftIIでプロプレーヤーに勝った人工知能(1/3)

１．AlphaStar：StarCraftIIでプロプレーヤーに勝った人工知能(1/3)まとめ

・20年以上の歴史を持つゲームであるStarCraftIIはAIにとって困難なチャレンジと見なされ来た
・不完全な情報と予期せぬ出来事に対処しつつ多数の選択肢から最適な行動を選ぶ困難さがある
・従来の人工知能は限定的な状況等で競っていたがAlphaStarはゲームに制限を加えなかった

２．StarCraftIIを人工知能がプレイする事の困難さ

以下、deepmind.comより「AlphaStar: Mastering the Real-Time Strategy Game StarCraft II」の意訳です。元記事の投稿は2019年1月24日、The AlphaStar teamの皆さんによる執筆です。前回の記事では、従来の人工無能の延長に見えるような動きを見せた箇所に注目してネガティブな感想を書いてしまいましたが、実際凄い事は凄いのです。続きはこちら。

コンピューターゲームは何十年もの間、人工知能システムの性能をテストし評価するための重要な手法として使用されてきました。人工知能の能力が増大するにつれて、AI研究コミュニティは、科学的問題や現実世界の問題を解決するために必要とされる様々な知的要素をゲーム中に取り込んでいる複雑なゲームを対象とするようになりました。

近年、AIにとって最も挑戦的なリアルタイムストラテジー(RTS)ゲームの1つであり、e-Sportsとして史上最も長くプレイされてきた(訳注：StarCraftIIはStarCraftシリーズの二作目で、全三部作です。第一部が2010年、第二部が2013年、第三部が2015年の発売です)ゲームの1つであると考えられているStarCraftは、AI研究にとって困難なチャレンジとして考えられていました。

そして今日、私達は私達のStarCraftII用プログラムであるAlphaStar、一流のプロ選手を打ち負かした最初の人工知能を紹介します。2018年12月19日に開催された一連の対戦試合で、AlphaStarはプロゲーマーであるDario “TLO” Wünsch(以下、TLO選手)とのベンチマーク試合に勝利し、更に世界でも有数の強豪であるStarCraftプロゲーマーTeam LiquidのGrzegorz “MaNa” Komincz(以下、MaNa選手)を5-0で破り決定的な勝利をあげました。

試合はプロゲーマー同士の試合時と同条件で行われ、競技用のマップが使用され、いかなるプレイ制限もありませんでした。AIはAtari、Mario、Quake III Arena Capture the Flag、Dota 2などの様々なビデオゲームで大きな成功を収めてきましたが、これまでのところ、AI技術はStarCraftの複雑さに対処するのに苦労してきました。

従来型システムの最良の結果は、システムの主要な要素を手作業でチューニングし、ゲームのルールに大きな制限を課し、システムに超人的な能力を与えることにより、または非常に単純化したマップでプレイさせる事により達成されました。しかし、これらの変更を加えても、プロのプレーヤーのスキルに匹敵するほどのシステムは実現できませんでした。

対照的に、AlphaStarは教師付き学習と強化学習によって生のゲームデータから直接訓練したディープニューラルネットワークを使用して、StarCraft IIに制限を加えずにプレイします。

StarCraft IIへの挑戦
Blizzard Entertainment社のStarCraftIIは、架空のサイエンスフィクションの世界を舞台にしており、人間の知性に挑戦するように設計された複雑なゲームです。元のタイトル(訳注：Blizzard社はディアブロやウォークラフトなど、長く愛されるゲームを多数開発してきましたが、初代StarCraftも発売は1998年。2017年にRemaster版が発売されたため、オリジナルの初代はフリーゲームとして公開されています。下部リンクの「Remaster」ページのページ下部「無料でプレイ」からダウンロードできます。340MBです。より詳しくゲームイメージを掴みたい方はどうぞ)と共に、これは史上最大かつ最も成功したゲームの1つで、プレーヤーは20年以上にわたりe-Sportsトーナメントで競い合っています。

ゲームをプレイする方法はいくつかありますが、e-Sportsで最も一般的な試合形式は一対一で各5戦するトーナメント形式です。プレーヤーは3つの異なる種族、Zerg(エイリアンっぽい見た目で数で押す種族)、Protoss(宇宙人っぽい見た目で少数精鋭な種族)、Terran(地球人っぽい見た目で中間的な種族)のいずれかをプレイすることを選択しなければなりません。それぞれの種族は全て独特の特性と能力を持っています。(プロのプレーヤーは1つの種族に特化する傾向があり、前述のMaNa選手やAlphaStarはProtossに特化しています)。

各プレイヤーは、多数の作業用ユニットと本陣のみの状態からスタートし、作業用ユニットを使って資源を集め、新しいユニットやテクノロジーを開発するための建物を建てていきます。より具体的には作業用ユニットを使って2種類の資源を集め、基地を拡張しつつ、戦闘ユニットを作り、新たなテクノロジーを開発してより強力な武器を入手して対戦相手に打ち勝つのです。

勝つためには、プレーヤーは、マクロと呼ばれる経済や生産するユニットの構成を管理する長期的戦略や、ミクロと呼ばれる個々のユニットを細かく操作する短期的な操作戦術を慎重にバランスさせる必要があります。短期的および長期的な目標のバランスを取り、予想外の状況に適応する必要性は、脆く柔軟性がないことが多いAIシステムにとって大きな課題となります。

この問題を克服するには、次のようないくつかのAI研究課題でのブレークスルーが必要です。

ゲーム理論：StarCraftは、じゃんけんのように、最高の戦略が存在しないゲームです。そのため、AIのトレーニングプロセスでは、戦略的知識のフロンティアを継続的に探索し、拡大する必要があります。

不完全な情報：プレイヤーが盤面の全てを見る事が出来るチェスや碁のようなゲームとは異なり、相手の陣地の場所や構成などの重要な情報はStarCraftプレイヤーは見る事が出来ず、何らかの「偵察」を行う事によりに初めて知る事ができます。

長期計画：多くの実社会の問題と同様に、因果関係は即座に反映されるわけではありません。ゲームが完了するのに1時間もかかることがあります。つまり、ゲームの初期の段階で行われた行動はすぐには成果をもたらさない可能性があります。

リアルタイム性：プレイヤーが順番に行動する伝統的なボードゲームとは異なり、StarCraftプレイヤーが何もしなくてもゲーム内ではどんどん時間が過ぎ去っていき、継続的に行動を指示しなければいけません。

多様な選択肢：何百もの異なるユニットや建物をリアルタイムで同時に制御しなければならないため、非常に多くの選択肢の中から選択する必要があります。これに加えて、アクションAによりアクションBが可能になる等、アクションは階層的であり、変更および拡張することができます。私たちのパラメータ設計によれば、AIは各ステップごとに平均して約10から26の合理的選択肢から選択する事が必要になります。

これらの困難へのチャレンジが必要になるために、StarCraftはAI研究にとって「大きな課題」として浮上してきました。

StarCraftとStarCraft IIの両方で現在も進行中のAI開発は2009年のBroodWar APIの発表以来、様々に進化し、その進化を評価するコンテストが開催されてきています。過去に開催されてきたコンテストには「AIIDE StarCraft AI Competition」、「CIG StarCraft Competition」、「 Student StarCraft AI Tournament」そして「Starcraft II AI Ladder」などがあります。。

AIコミュニティがこれらの課題を更に研究するのを助けるため、私達は2016年と2017年にBlizzard社と協力して、オープンソースのPySC2と呼ばれるツールセットをリリースしました。PySC2には、匿名化されたゲームのリプレイ集なども含まれており、これはこれまでにリリースされたリプレイ集の中で最大の収録数です。私たちは現在、この成果を基に、エンジニアリングとアルゴリズムのブレークスルーを組み合わせてAlphaStarを開発しました。

MaNa選手とAlphaStarの対戦二試合目のAlphaStarの視点(左上)。下部ではニューラルネットワークの動作も観察できるようになっています。左下：ニューラルネットワークへの生のデータ入力、中央：ニューラルネットワークの内部アクティベーション、右下：クリックする場所や構築するものなど、エージェントが取ることができるいくつかの行動と、その予測結果。MaNa選手の視点(右上)も表示されていますが、AlphaStarは見る事ができません。