機械学習トレーニング時の二酸化炭素排出量を4年間で747倍削減(2/2)

１．機械学習トレーニング時の二酸化炭素排出量を4年間で747倍削減(2/2)まとめ

・過去3年間のGoogleの総エネルギー使用量のうちMLの学習と推論の使用量は10%～15%
・Evolved Transformerモデルの炭素排出量が自動車の生涯排出量の5倍に相当する説は誤解
・4Msが広く認知されればMLトレーニングによる二酸化炭素排出量は増加どころか減少の見込み

２．モデルのトレーニングが自動車の生涯排出量の5台分に相当する説の真偽

以下、ai.googleblog.comより「Good News About the Carbon Footprint of Machine Learning Training」の意訳です。元記事は2022年2月15日、David Pattersonさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Callum Shaw on Unsplash

ML全体のエネルギー消費量

Googleの総エネルギー使用量は年々増加していますが、Gootleが提供するサービスの利用が増加していることを考えると、これは驚くべきことではありません。しかし、4M(最適化されたモデル、ML専用ハードウェア、効率的なデータセンター)に注意を払うことで、この負荷の増加をほぼ補っています。私たちのデータによると、過去3年間のGoogleの総エネルギー使用量のうち、MLのトレーニングと推論は10%～15%に過ぎず、毎年、推論に3/5、トレーニングに2/5を割り当てています。

以前に行われた機械学習の二酸化炭素排出量の見積もり

Googleはより良いMLモデルを見つけるために、ニューラル・アーキテクチャ・サーチ(NAS:Neural Architecture Search)を使用しています。NASは通常、問題領域と検索空間の組み合わせごとに1回実行され、得られたモデルは何千ものアプリケーションに再利用することができます。例えば、NASによって見つかったEvolved Transformerモデルは、誰もが使えるようにオープンソース化されています。NASによって最適化されたモデルは、より効率的であることが多いため、NASにかかる1回のコストは、その後の使用による排出削減によって相殺されるのが一般的です。

マサチューセッツ大学(UMass)の研究では、Evolved Transformer NASの炭素排出量を試算しています。

・この研究では、Googleのハードウェアやデータセンターにすぐに利用できなかったため、TPUv2の代わりに利用可能であったP100 GPUを使用しており、需要に合わせて規模を拡大可能な効率の良いデータセンターではなく、米国の平均的なデータセンターの効率を仮定しています。これらの仮定は、Google のデータセンターで実行された実際の NAS の計算で使用されたエネルギーよりも、推定値を5倍増加させました。

・NASの排出量を正確に見積もるには、その仕組みの微妙な違いを理解することが重要です。NASのシステムでは、時間を節約するために、はるかに小さな代替タスクを使用して最も効率的なモデルを検索し、見つかったモデルをフルサイズにスケールアップします。UMassの研究では、この検索がフルサイズモデルのトレーニングを何千回も繰り返すと仮定しており、その結果、排出量の推定値がさらに18.7倍も高くなるのです。

NASは88倍の過大評価をされました。Googleのデータセンターにおけるエネルギー効率の高いハードウェア分が5倍、代理タスクを用いた計算分が18.7倍です。実際のCO2排出量は、284,019kgに対して3,223kgとなり、公表値より88倍少なくなっています。

残念ながら、いくつかの後続の論文は、上記の「NASの推定値」を、「NASで発見したモデルを学習させる際のトレーニングコスト」と誤解していました。しかしながらこの推定値は、モデルのトレーニングに必要な値よりも1300倍も大きいのです。

訳注：NASは「特定のタスクを効率良く実行できるモデル構造を自動で発見する技術／仕組み」です。発見したモデルを学習させるのとはNASとは別の話です。

Evolved TransformerはNASで発見されたモデルで公開もされているので、使いたかったらEvolved Transformerをダウンロードして自分が用意した学習用データで別途学習させる必要がります。

しかしながら、NASをクラウド上で簡単に実行できるように製品化したAutoMLではユーザが求められるのは「学習用データを揃える事」だけであり、データさえ揃えれば、最適なモデルを自動で発見して且つトレーニングまでしてくれるので、この仕組みが誤解の原因になったのかな、と思います。

これらの論文では、Evolved Transformerモデルのトレーニングに200万GPU時間、数百万ドルかかり、その炭素排出量は自動車の生涯排出量の5倍に相当すると見積もっています。

実際には、UMassの研究者が検討したタスクで、4Mのベストプラクティスに従ってEvolved Transformerモデルをトレーニングすると、120 TPUv2時間、コストは40ドル、排出量はわずか2.4kg(自動車の寿命の0.00004倍)と12万倍も少ないのです。この差は、自動車を製造する際のCO2排出量を100倍過大評価し、その数字を自動車を運転する際のCO2排出量として使用するようなものです。

展望

気候変動は重要です。ですから、最大の課題の解決に注力するためには、正しい数字を把握する必要があります。情報技術分野では、ライフサイクルコスト(LCC:LifeCycle Costs)が重要だと考えています。

つまり、トレーニング時のコストだけではなく、チップからデータセンターの建物まで、あらゆる種類とサイズのコンピュータ機器の製造に関わるすべての部品の製造から排出される炭素を含む排出量の見積もりです。

全員が4Mを向上させれば、さらなる朗報が期待できます。現在、これらの数値は企業によって異なるかもしれませんが、これらの簡単な対策は業界全体で踏襲することが可能です。

・データセンター事業者は、データセンターの効率と拠点ごとのエネルギー供給のクリーン度を公表し、顧客がエネルギー消費と二酸化炭素排出量を理解し、削減できるようにする事です。

・MLの実務者は、最も環境に優しいデータセンターで最高のプロセッサを使用してモデルを訓練する必要があります。これは現在、多くの場合クラウドにあります。

・ML研究者は、より効率的なMLモデルの開発を続けるべきです。例えば、スパース性を活用したり、検索機構を統合してモデルを縮小したりすることで、より効率的なMLモデルを開発すべきです。また、研究者はエネルギー消費量や二酸化炭素の排出量を公表すべきです。これは、モデルの品質を超えた競争を促進し、事後に正確に行うことが困難な、自分たちの作業の正確な二酸化炭素排出量算出計算を保証するためのものです。

4Msが広く認知されるようになれば、MLトレーニングによる世界の二酸化炭素排出量は、増加するどころか、むしろ減少するという好循環が生まれると予想されます。

謝辞

私たちの多くが初めて経験するテーマについて、この長く曲がりくねった調査に付き合ってくれた共著者たちに感謝させてください。Jeff Dean, Joseph Gonzalez, Urs Hölzle, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, そして Maud Texier。

また、最終的にこのバージョンの論文につながった先行研究についても、途中で他の方々から多大なご協力をいただきました。Emma Strubellは先行論文に対して、最近の巨大なNLPモデルを検証するよう勧めるなど、いくつかの提案をしてくれました。Christopher Berner、Ilya Sutskever、OpenAI、Microsoftは、GPT-3に関する情報を共有してくれました。Dmitry LepikhinとZongwei Zhouは、GoogleデータセンターにおけるGPUとTPUのパフォーマンスとパワーを測定するために多大な貢献をしてくれました。Hallie Cramer、Anna Escuer、Elke Michlmayr、Kelli Wright、Nick Zakrasekは、GoogleのエネルギーとCO2e排出量に関するデータとポリシーについて協力してくれました。