Deepmindの人工知能AlphaStarがStarCraft2でプロゲーマーに打ち勝つ

１．Deepmindの人工知能AlphaStarがStarCraft2でプロゲーマーに打ち勝つまとめ

・Deepmindの人工知能AlphaStarがStarCraft2でプロゲーマーに打ち勝つ
・しかし、実はハンデ戦であってマクロの視点が欠けているように見えた
・現在の人工知能は人間に比べて学習効率が悪すぎる説が実感として感じられる勝負だった

２．定石を無視するAI

2019年2月11日追記ですが、本投稿、誤認識に基づいた誤った投稿でした。「偵察しなくてもマップ上の全ての場所をみる事ができる」事はありませんでした。正確な情報は開発元であるdeepmind社のブログ記事を訳した「AlphaStar：StarCraftIIでプロプレーヤーに勝った人工知能(3/3)」にまとめてあります。

AIが何かの競技で人間を打ち負かしたという話は既に珍しくなったけれども、StarCraft2は過去にそれなりにハマった事があるゲームなので、Deepmindの人工知能AlphaStarがプロゲーマーを打ち負かしたというニュースはとても興味深かった。

StarCraft2は、実力が近い同士がマッチするようにリーグ分けがあって、上からマスター、ダイヤモンド、プラチナ、ゴールド、シルバー、ブロンズ、となっている。で、私は過去最高リーグはプラチナまで行った事がある。上から三つ目とは大したことがないと思われるかもしれないが、一番最初の頃はマスタークラスは存在しなかったので、ダイヤモンドはかなり凄い事だったのだ。

なので、ちょこっとやった事があるだけの碁やDota2よりは定石を理解できているので、今回AIが使った戦法の異質感も実感できた。碁やDota2の試合を観戦していた人たちがAIは定石を無視すると言っていたけれども、本当に定石を完全に無視しているように見える。

一番感じたのは建物の建て方

人間(プロプレーヤー)の建物の建て方
敵が陣地に侵入しにくいように出入り口を塞ぐように建てる(定石)

AIの建物の建て方
特にコダワリなく本陣に近い位置に建てている

StarCraft2の基本戦略は、「自分の軍が相手の軍より強い時間帯に戦う」事。相手がまだ準備が整っていない序盤にラッシュするのもアリ。逆に序盤はガードを固めるなり相手に嫌がらせ攻撃だけをして凌ぎ、後半に強力なユニットを出して攻めるのもアリ。

いずれにしても、「相手が何をしようとしているのか知る事」「自分が何をしようとしているのか知られない事」がマクロな戦略であり、それゆえ、相手が偵察しにくいように(陣地に入り込みにくいように)建物を建てるとか、見つけにくい場所に建物を建てる、等々が大切になる。

以降の文章は完全に誤情報です。AIには視点を切り替える必要がないと言う有利な点はありましたが偵察自体は必要でした。また、視点切り替えが必要な設定に修正したAIは人間に負けましたが、学習期間が完全版の半分くらいの未完成版と逆のハンデがあったようです。詳細はこちら。

まぁ、今回のAIは「偵察しなくてもマップ上の全ての場所をみる事ができる」というハンデを貰っていた。つまり人間側の陣地が丸見えなので「自分が有利な時間帯か？」は自明なので、逆に言えば、偵察の重要さを学習する機会もなかったのかもしれない。もしくはDota2で言われていたように対戦時に使われたAIは15分以上先の事を考える事ができないのでそもそも無理な話なのかもしれないが、ゲーム内容を見る限りユニット操作等ミクロな戦術のみでごり押ししている感があった。

ハンデ戦が終わった後、同じ土俵、つまり「自分のユニットまたは建物がある場所しか見えない」の条件で戦った際は、プロゲーマーが圧勝していたけれども、現状、同じ土俵だと以下の理由でAIは人間に勝てないと思う。

１）戦略がバレバレでも途中で変更しない
２）陽動作戦に全軍で対応しようとするので幾らでも時間が稼げる

２）は、もしかしたら「偵察しなくてもマップ上の全ての場所をみる事ができる」の条件で学習したので、見えている敵に全軍で攻撃しようとしてしまうのかもしれないが、完全に手玉に取られていた。そして、１）があるから「はい、あなたはチョキを出すんですね、それではグーを準備するのでちょっと待っててください」ができてしまうのだ。

奇襲にさえ気を付ければ、人間が負ける要素がない。碁では「人間が定石と思っているものをAIは無視した。定石なんて意味がなかったのかもしれない！」なんて話が出ていたけれども、もしかして単に定石の必要性が学習できていないのかもしれない。

もちろん、StarCraft2のような複雑なゲームをAIが人間同等にプレイできている事が自体が凄い事なのだけれども、報道のされ方「AIがプロゲーマーに勝った！」とは大分印象が異なる。逆に人間との差がまだまだ相当ある事を実感するマッチだった。現在のレベルであったら人間がAIと数時間ゲームをして「100％AIに負けない必勝パターン」を見つけだす事はさほど難しくない。

TPUv3を使いプレイ時間でいえば200年分の学習を行ったとの事だけれども、200年分でこれだとすると確かに現在のAIは学習効率が悪すぎるのかもしれない。もしくは例によって「200年分で足りないなら20,000年やればいいじゃない」的な計算機パワーの暴力で解決してしまうのかもしれないけれども。