時系列予測にAutoMLを使用する(2/2)

１．時系列予測にAutoMLを使用する(2/2)まとめ

・最新コンペであるM5予測コンペでAutoMLは銀メダルゾーンにあたる成績を収めた
・人間の参加者が数か月かかったモデル設計を2時間と人的介入なしでAutoMLは達成
・他のデータセットでもAutoMLは人間が手動設計したモデルの92%以上に打ち勝った

２．AutoMLの時系列予測における性能

以下、ai.googleblog.comより「Using AutoML for Time Series Forecasting」の意訳です。元記事の投稿は2020年12月4日、Chen LiangさんとYifeng Luさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Christopher Rusev on Unsplash

予測コンペでの結果
AutoMLソリューションのベンチマークを行うために、予測コミュニティ内で最も重要なコンペの1つと見なされているM-competitionシリーズの最新コンペであるM5予測コンペ(M5 forecasting competition)に参加しました。

このコンペには、40年近くにわたる長い歴史があります。最新のコンテストはKaggleで開催され、ウォルマート製品の販売情報を元にしたデータセットを使用しました。現実世界の販売データの複雑な性質により、問題は非常に困難です。

私達は完全に自動化されたソリューションでコンペに参加し、最終ランキングでで5558人の参加者のうち上位138人(上位2.5％)、銀メダルゾーンにあたるランクを達成しました。

コンテストの参加者は、モデルを作成する期間としてほぼ4か月が与えられました。競合する予測モデルの多くは、作成に数か月の手作業が必要でしたが、AutoMLソリューションは、適度な計算コスト(500 CPUで2時間)と人的介入なしで、短時間でモデルを発見しました。

訳注：CPU500基で2時間との事ですが、N1 high CPU マシンタイプで実行したと仮定すると、最大のマシンタイプがCPUを96基搭載の下記
n1-highcpu-96 仮想CPU96 メモリ86.4GB $3.402/h
これを前提に試算すると500 ÷ 96 = 5.21
$3.402/h × 5.21 × 2hours = $35.4ドル

2020年12月時点のAutoMLテーブル(ベータ版)のトレーニング費用は$19.32/h(n1-standard-4(仮想CPU4基搭載)と同等のマシン 92台を並行して使用する料金も含む)なので、そんなに外してないコスト感だと思うのですが、う～ん、これってもう人類に勝ち目なくないですか？

また、他のいくつかのKaggleデータセットでAutoML予測ソリューションのベンチマークを行ったところ、リソースの使用が限られているにもかかわらず、平均して手動設計モデルの92%を上回っています。

M5以外の他のKaggleデータセット(Rossman Store Sales、Web Traffic、Favorita Grocery Sales)を使って評価したAutoMLによる予測

本研究は、時系列予測のために直接AutoMLを適用する強みを示しており、現実世界のアプリケーションへの潜在的な影響に興奮しています。

謝辞
このプロジェクトは、GoogleBrainチームのメンバーであるChen Liang, Da Huang, Yifeng Lu and Quoc V. Leの共同研究でした。また、Junwei Yuan, Xingwei Yang, Dawei Jia, Chenyu Zhao, Tin-yun Ho, Meng Wang, Yaguang Li, Nicolas Loeff, Manish Kurse, Kyle Anderson 及び Nishant Patil の共同作業にも感謝します。