Googleが開発する人工知能用演算装置TPUの第三世代

１．Googleが開発する人工知能用演算装置TPUの第三世代まとめ

・第二世代TPU Podsの8倍の性能を誇る第三世代TPU Podsが発表
・第三世代TPU Podsは100petaFLOPSの性能を達成
・第二世代TPU Podsは今年後半からクラウドから利用可能になる予定

２．CPUとGPUとTPUの違い

一般のパソコンに搭載されている演算装置はCPU（セントラルプロセッシングユニット：中央演算処理装置）と言われている。商品名で言えば、IntelやAMD等のメーカーが販売しているCore i7とかRyzen7、古くはPentiumやCeleron、Atomなど、「Intel 入ってる」と宣伝されているアレだ。

人工知能の分野では、CPUより並列計算処理の性能が優れているGPU(グラフィックスプロセッシングユニット：画像演算処理装置)が良く使われる。商品名で言えば、NVIDIAやAMD等のメーカーが宣伝販売しているGeforceとかTesla,Radeonなど。

人工知能を開発する際は行列やベクトルの計算を並列計算できると都合が良い。そのため、複雑な人工知能の開発にはGPUがほぼ必須と見なされている状況の中、Googleは人工知能用にTPU（テンソルプロセッシングユニット：テンソル演算処理装置）と言う新しくハードウェアを作ってしまった。

「テンソル」とは説明がとても難しいのだが「行列やベクトルを計算する際に知っておくと便利な概念」と、深入りせずにもやもやした認識のままで良いと思う。GPUは名前の通り、本来は画像処理用に開発された装置だったものを人工知能開発に便利だから転用されたのに対して、TPUは最初から大規模な人工知能を開発する際に性能を発揮するように特化して開発されている。

３．TPUの性能の進化

第二世代のTPUが発表されたのは2017年5月のGoogle I/O 2017。1ユニットに4つのプロセッサを搭載し、1ユニットあたり浮動小数点180teraFLOPS(テラフロップス)の演算能力を持つ。ユニットは、ネットワークで相互接続してグリッド状態の「TPU Pods」として構成する事が出来る。Googleのデータセンターには、64ユニットのTPUで構成されたTPUポッドが存在し、演算性能は11.5petaFLOPS(ペタフロップス)を誇る。下記がTPUv2のPods。

あまりピンと来ないが、Gmailの返信作成をフォローしてくれるSmart Composeの開発時にTPU v2 Podsを使って数十億のメールサンプルを１日未満で学習させる事が出来たと書いてあったので、凄まじい性能である事は間違いない。

そして、今年のGoogle I/O 2018では、第三世代のTPUが発表された。第三世代TPUは、第二世代TPUの約8倍の性能を誇るとの事。TPU単体の性能が8倍になったのではなくPodsとして複数TPUで構成されたものが、100petaFLOPS、つまり第二世代Podsの11.5petaFLOPSの約8倍と言う事のようだ。Podsに搭載できるTPUの数も増えていて、熱量のために水冷になった模様。下記がTPUv3のPods。

TPU v2 Podsは今年後半からクラウドサービスとして一般利用できるようになる予定。現時点でも単体のTPU v2はGoogle Cloud TPUから$6.5/時間(Cloud TPU resource)+$0.095/時間(Compute Engine n1-standard-2 instance)で利用できる。そして、Google Cloud TPUを使うと膨大な計算を必要とする様々な最先端の学習モデルが大変早く大変お安く構築できてしまう。

画像認識
AmoebaNet-D
学習時間7.5時間、お値段$49.30

物体検出
RetinaNet
学習時間6時間、お値段$40

機械翻訳
Tranformer
学習時間6.2時間、お値段$41

言語モデル
Transformer
学習時間74時間、お値段$488

音声認識
ASR Transformer
単語エラー率7.9%の場合
学習時間13時間、お値段$86
単語エラー率7.3%の場合
学習時間34時間、お値段$224

質問回答
QANet(Fast Version)
SQuAD F1 Score 75
学習時間0.8時間、お値段$5.30

過去に論文やニュースで読んでいて、「わぉ！ものスッゴイゴッツイ性能のモデルが出てきたぞ！」と驚いたモデルが今ではおそろしく安価に簡単に学習できてしまう。AmoebaNetが5000円で出来てしまう事にも驚くが、人工知能が初めて人間の読解力を上回ったとニュースになった件で話題になったテスト、SQuADのF1 Score75とは62位相当、最先端とは言えないかもしれないがこれが500円と考えると、AI For Everyoneのスローガンの下、誰でも使えるような安価にクラウドサービスの価格設定をしているのだと思うが、相当に破壊的なイノベーションだとも思う。

このような圧倒的な性能を見せるTPU v2を複数組み合わせたTPUv2 Podsは数十億のメールサンプルを１日未満で学習させる事が出来るが、そのTPUv2 Podsより8倍早いTPUv3 Podsが今回発表された。

もはや何が何だか凄すぎて想像もできないが、この凄すぎるTPUv3 Podsをもってしても、量子コンピューターが実現されると「昔の古い遅いコンピューター」と見なされるようになる。

ここ数年の人工知能向けハードウェアの進歩は凄まじい。人工知能の性能は学習データ量＋ハードウェアが大きく影響するので、このハードウェアの進歩の恩恵を人工知能はダイレクトに受ける事ができる。それを考慮すると、現時点では不可能に見えるシンギュラリティのような事も「理論的には良くわからないけど圧倒的な計算機パワーで実現できちゃいました！」となる事も十分あり得るのかもしれないな、とも思えてくる。

TPUの解説は18:35分頃から。