AutoML Tables:表形式データのためのAutoMLソリューション(2/2)

  • 2019.05.16
  • AI
AutoML Tables:表形式データのためのAutoMLソリューション(2/2)

1.AutoML Tables:表形式データのためのAutoMLソリューション(2/2)まとめ

・AutoML Tablesは現在のところ、Cloud AutoMLシリーズとは別製品扱いでページも異なる
・KaggleのエキスパートのモデルとAutoML Tablesの出力モデルをマージするとより良い品質が得られた
・AutoML Tablesは、他のKaggleのコンペで競合チームと比較しても良い成績を収めている

2.AutoMLと機械学習エキスパートの共同作業

以下、ai.googleblog.comより「An End-to-End AutoML Solution for Tabular Data at KaggleDays」の意訳です。元記事は、2019年5月9日、Yifeng Luさんによる投稿です。ちなみに今回の投稿のAutoML Tablesは、現在の所、Cloud AutoMLシリーズ(AutoML Translation、Natural Language、Vision)とは別製品扱いなのかAutoML Tablesと言う独立したページに掲載されています。どちらもベータ版です。

Google AutoMLチームのワークフローは、他のKaggle競合チームのものとはかなり異なりました。他のチームがデータ分析やさまざまな特徴エンジニアリングのアイデアの実験に忙しい間、私達のチームはほとんどの時間をジョブを監視し、それらが終了するのを待つ事に費やしました。最終的なリーダーボードで2位となったソリューションでは、エンドツーエンドで終了するのに2500 CPUで1時間かかりました。

訳注:AutoML Tables(ベータ版)では、トレーニングのお値段は「6 時間の無料使用 1 回 + $19.32/時間。(n1-standard-4と同等のマシン 92 台を並行して使用)」との事。n1-standard-4は「4 基の vCPU と 15 GB のメモリを備えた標準マシンタイプ」なので、92台×4基=368、2500÷368=6.79、切り上げて7セットとして、7×$19.32=$135.24、$135.24×110円=\14,877円。成果物に対する価格としては破格とは思いますが、一時間約1.5万円相当。最終的なモデルだけでこれなので、一日中トライアンドエラーしていたと考えると10万円は超えちゃいそうですよね。そう考えると、個人としては中々気軽に使える金額ではないので、AutoKerasの記事の人の気持ちもわからなくはないですね。

コンペが終了した後、Kaggleは上位のソリューションを調査するためにパブリックカーネルを発表しました、そして、私達が使ったAutoMLモデルのようなシステムで、人間が作った最高の手動設計モデルを拡張する事がMLのエキスパート達にとってさらに高性能システムを作るための役に立つ方法であることがわかりました。下のグラフからわかるように、AutoML Tablesは開発者の成果を強化し、広範囲のMLの問題に対処する可能性を秘めています。


AutoMLモデルが他のKagglersのモデルとマージされた場合、最終的なリーダーボードのモデル品質が向上する可能性があります。「Erkut&Mark、Google AutoML」には、優勝者の「Erkut&Mark」と2位の「Google AutoML」モデルの成果が含まれています。Erkut AykutlugとMark Pengは特徴エンジニアリングでXGBoostを使用しましたが、AutoMLはニューラルネットワークとグラディエントブーストツリー(TFBT)の両方で自動特徴エンジニアリングとハイパーパラメーターチューニングを行いました。

Google Cloud AutoML Tables
今回のコンペティションで提示されたソリューションは、Google Cloud AutoML Tablesのメインアルゴリズムです。これは、最近Google Cloud Next’19で発売されたベータ版です。AutoML Tablesの実装は、下のグラフに示すように、Kaggleの競合チームと比較したベンチマークテストで良い成績を収め、最先端のパフォーマンスを達成しています。


複数のKaggleコンテストにおけるAutoML Tablesのサードパーティによるベンチマーク

私たちは、実際のビジネス上のさまざまな問題にAutoMLメソッドが適用される可能性に興奮しています。

サプライチェーンマネジメントやリードコンバージョンオプティマイゼイションなどのミッションクリティカルな業務では、多くの企業が既に表形式の業務データを活用しているため、AutoML Tablesを使用して、表形式データの問題を自動で解決する最先端のMLモデルを提供できる事を楽しみにしています。

謝辞
このプロジェクトは、Google BrainチームのメンバーMing Chen、Da Huang、Yifeng Lu、Quoc V. Le、Vishy Tirumalashettyのおかげで可能になりました。我々はまた、優れたインフラストラクチャーと製品ランディングコラボレーションについてCloud AutoML TablesチームのDawei Jia、Chenyu Zhao、Tin-yun Hoに感謝します。魅力的なコンペティションを開催してくれたWalter Reade、Julia Elliott、Kaggleに感謝します。

3.AutoML Tables:表形式データのためのAutoMLソリューション(2/2)関連リンク

1)ai.googleblog.com
An End-to-End AutoML Solution for Tabular Data at KaggleDays

2)cloud.google.com
AutoML Tablesベータ版
Cloud AutoML ベータ版