AlphaStar：StarCraftIIでプロプレーヤーに勝った人工知能(4/3)

１．AlphaStar：StarCraftIIでプロプレーヤーに勝った人工知能(4/3)まとめ

・AlphaStarと対戦したプロは新しい戦略の発見に繋がったと評価
・AlphaStarで培った技術は他のAI関連作業にも応用が可能
・AIのもっと信頼性の高い、間違いが起こりにくいアプローチに繋がる可能がある

２．AlphaStarとプロプレーヤーの違い

以下、deepmind.comより「AlphaStar: Mastering the Real-Time Strategy Game StarCraft II」の意訳です。元記事の投稿は2019年1月24日、The AlphaStar teamの皆さんによる執筆です。こちらかの続きです。続きはこちら。

プロ選手によるAlphaStarの評価

Starcraftでは、プレイヤーは3つの種族のうちの1つを選択することができます：Terran、ZergまたはProtoss。私たちは、AlphaStarを今のところ、Protossという単一のレースに専念させる事にしました。これは、トレーニング時間と社内リーグの対戦結果をまとめる際の差異を減らすためです。今回のトレーニング手法はどの種族にも適用できることに注意してください。私たちのエージェントは、公式マップ(CatalystLE)上で、Protoss v ProtossのゲームでStarCraft II(v4.6.2)を使って訓練されました。

AlphaStarのパフォーマンスを評価するために、最初に私達のエージェントをTLO選手を対戦させてテストしました。TLO選手はトッププロのZergプレーヤーで、ProtossもGrandMasterレベルの実力を備えています。(訳注:GrandMasterはBlizzard社の公式ランクとしては最高ランクなのですが、取得条件に色々制限があるためプロプレーヤーの中にはGrandMasterランクの取得にこだわらない人もいます。なので前文は「プロプレイヤーとしてはZergが一番得意な種族ですが、Protossも高水準な実力を備えています」の意味です)

AlphaStarは、多種多様なユニットとビルドオーダーを使い、TLO選手に5-0で勝利しました。「私はエージェントがどれほど強いかに驚きました」と彼は言いました。「AlphaStarはよく知られた戦略から学んだと聞きましたが、対戦時に私が今まで考えた事もなかった新しい戦略を使ってきました。つまり、10年にわたって人間が検討してきたStarcraftIIの戦略の中には十分に検討されていない新しい戦略がまだあるかもしれないということです。」

さらに1週間エージェントをトレーニングした後、私たちは、世界で最も強いStarCraft IIプレーヤーの1人であり、最も強いProtossプレーヤーのベスト10の1人であるMaNa選手と対戦しました。AlphaStarは再び5-0でゲームに勝利し、強力なミクロとマクロ戦略のスキルを実証しました。

「AlphaStarが、私が予想していなかった非常に人間的なスタイルでゲームプレイをしてきました。ほとんど全てのゲームで高度な動きや様々な戦略を打ち出したことに感銘を受けました」と彼は述べました。「私は自分のゲームプレイが相手のミスを誘う事や人間の反射的反応を悪用する事にどれだけ頼っているかに気づいたので、この対戦結果は私にとって全く新しい光の中にゲームを置きました。私たちは皆、次に来るものを見ることに興奮しています。」

AlphaStarおよびその他の複雑な問題
StarCraftは複雑なものではありますが、単なるゲームです。しかし、AlphaStarの背後にある手法は他の問題を解決するのに役立つ可能性があると思います。

例えば、そのニューラルネットワークアーキテクチャは、不完全な情報に基づいて、目まぐるしく変化し最大で1時間近く続く事も多い、非常に長い一連のあり得るアクションをモデル化する事が出来ました。StarCraftの各フレームは入力の1ステップとして使用され、ニューラルネットワークは各フレームの後にゲームの残りの部分に対して予想される一連の動作を予測します。

非常に長い一連のデータに対して複雑な予測を行うことの根本的な問題は、天気予報、気候モデリング、言語理解など、現実世界の多くの課題で共通です。AlphaStarプロジェクトから学んだことや発展したことを利用して、これらの分野で著しい進歩を遂げる可能性に非常に興奮しています。

私達はまた私達の訓練方法のいくつかが安全で頑強なAIの研究に役立つことを証明するかもしれないと思っています。AIにおける大きな課題の1つは、システムが誤動作する可能性がある方法の数です。StarCraftのプロプレーヤーは、これらの間違いを引き起こすための独創的な方法を見つけることによって、AIシステムに勝るのが簡単であることを以前発見しました。

AlphaStarの革新的なリーグベースのトレーニングプロセスは、最も信頼性が高く、間違いが起こりにくいアプローチを見つけます。特に複雑なエッジケースに対処することが不可欠であるエネルギーのような安全性が重要な分野において、AIシステム全般の安全性と堅牢性を改善するのに役立つ今回のアプローチの可能性に私たちは興奮しています。

AIが過去最高レベルのStarCraftプレイを達成した事は、これまでに作成されたAIの中でも最も複雑なビデオゲームの1つにおける大きな進歩を表しています。AlphaZeroやAlphaFoldのようなプロジェクトの最近の進歩と並んで、今回の進歩は、いつか世界の最も重要で根本的な科学的問題に対する新しい解決策を切り開くのに役立つインテリジェントシステムを創り出すという私たちの使命が一歩前進した事を表しています。

私たちは、Team LiquidのTLOとMaNaの支援と偉大な技能に感謝しています。この作業を可能にしてくれたBlizzardとStarCraftコミュニティの継続的な支援にも感謝しています。

(AlphaStar：StarCraftIIでプロプレーヤーに勝った人工知能(3/3)からの続きです)
AlphaStar：StarCraftIIでプロプレーヤーに勝った人工知能(5/3)に続きます)