1.時系列予測にAutoMLを使用する(2/2)まとめ
・最新コンペであるM5予測コンペでAutoMLは銀メダルゾーンにあたる成績を収めた
・人間の参加者が数か月かかったモデル設計を2時間と人的介入なしでAutoMLは達成
・他のデータセットでもAutoMLは人間が手動設計したモデルの92%以上に打ち勝った
2.AutoMLの時系列予測における性能
以下、ai.googleblog.comより「Using AutoML for Time Series Forecasting」の意訳です。元記事の投稿は2020年12月4日、Chen LiangさんとYifeng Luさんによる投稿です。
アイキャッチ画像のクレジットはPhoto by Christopher Rusev on Unsplash
予測コンペでの結果
AutoMLソリューションのベンチマークを行うために、予測コミュニティ内で最も重要なコンペの1つと見なされているM-competitionシリーズの最新コンペであるM5予測コンペ(M5 forecasting competition)に参加しました。
このコンペには、40年近くにわたる長い歴史があります。最新のコンテストはKaggleで開催され、ウォルマート製品の販売情報を元にしたデータセットを使用しました。現実世界の販売データの複雑な性質により、問題は非常に困難です。
私達は完全に自動化されたソリューションでコンペに参加し、最終ランキングでで5558人の参加者のうち上位138人(上位2.5%)、銀メダルゾーンにあたるランクを達成しました。
コンテストの参加者は、モデルを作成する期間としてほぼ4か月が与えられました。競合する予測モデルの多くは、作成に数か月の手作業が必要でしたが、AutoMLソリューションは、適度な計算コスト(500 CPUで2時間)と人的介入なしで、短時間でモデルを発見しました。
n1-highcpu-96 仮想CPU96 メモリ86.4GB $3.402/h
これを前提に試算すると500 ÷ 96 = 5.21
$3.402/h × 5.21 × 2hours = $35.4ドル
2020年12月時点のAutoMLテーブル(ベータ版)のトレーニング費用は$19.32/h(n1-standard-4(仮想CPU4基搭載)と同等のマシン 92台を並行して使用する料金も含む)なので、そんなに外してないコスト感だと思うのですが、う~ん、これってもう人類に勝ち目なくないですか?
また、他のいくつかのKaggleデータセットでAutoML予測ソリューションのベンチマークを行ったところ、リソースの使用が限られているにもかかわらず、平均して手動設計モデルの92%を上回っています。
M5以外の他のKaggleデータセット(Rossman Store Sales、Web Traffic、Favorita Grocery Sales)を使って評価したAutoMLによる予測
本研究は、時系列予測のために直接AutoMLを適用する強みを示しており、現実世界のアプリケーションへの潜在的な影響に興奮しています。
謝辞
このプロジェクトは、GoogleBrainチームのメンバーであるChen Liang, Da Huang, Yifeng Lu and Quoc V. Leの共同研究でした。また、Junwei Yuan, Xingwei Yang, Dawei Jia, Chenyu Zhao, Tin-yun Ho, Meng Wang, Yaguang Li, Nicolas Loeff, Manish Kurse, Kyle Anderson 及び Nishant Patil の共同作業にも感謝します。
3.時系列予測にAutoMLを使用する(2/2)関連リンク
1)ai.googleblog.com
Using AutoML for Time Series Forecasting
2)mofc.unic.ac.cy
The M5 Competition
3)www.kaggle.com
M5 Forecasting – Accuracy