1.AutoML Tables:表形式データのためのAutoMLソリューション(1/2)まとめ
・AutoML Tablesは表形式データにAutoMLの手法を適用する新しいAutoMLシステム
・自動車部品の材料特性と試験結果から製造上の欠陥を予測するモデルの作成コンペをKaggleで実際
・AutoML TablesはMLのトップエキスパート達によって手動で作成されたモデルと同等の品質を達成
2.表形式データに機械学習を自動で適用するAutoML
以下、ai.googleblog.comより「An End-to-End AutoML Solution for Tabular Data at KaggleDays」の意訳です。元記事は、2019年5月9日、Yifeng Luさんによる投稿です。
表形式データ(tabular data:例えばMicrosoft ExcelやGoogleスプレッドシート)のための機械学習(ML)は、ML研究およびビジネスアプリケーションの両方において最も活発な研究分野の1つです。不正検出や在庫予測など、表形式のデータで表現される事が多い問題の解決は、小売、サプライチェーン、金融、製造、マーケティングなどの多くのビジネス分野にとって重要です。
これらの問題に対する現在のMLベースの解決策は、熟練した機械学習エンジニアが手動で特徴エンジニアリングやハイパーパラメータ調整行うなど、機械学習の専門知識を有する人々によって優れたモデルを作成される事で実現できます。ただし、これらのスキルを持つエンジニアは多くないため、MLによるビジネス改善は効率的に実現できません。
GoogleのAutoMLの取り組みは、MLをよりスケーラブルにし、研究と産業の両方のアプリケーションを加速することを目指しています。私たちの最初のニューラルアーキテクチャ検索の成果は、NasNetによるコンピュータビジョンのブレークスルーを可能にしました。そして、AmoebaNetやハードウェアを意識したモバイルビジョンアーキテクチャMNasNetのような進化的方法はこれらの学習方法の恩恵をさらに示しました。
近年、表形式のデータにこれらの自動学習ベースのアプローチを適用し、3つの主要基準を満たすスケーラブルなエンドツーエンドのAutoMLソリューションを作成しました。
完全自動化:入力が必要な項目はデータと計算リソースの指定のみです。保守可能なTensorFlowモデルが出力されます。プロセス全体に人間の介入は必要ありません。
広範囲な適用範囲:このソリューションは、表形式のデータを扱う業務の任意のタスクの大部分に適用できます。
高品質:AutoMLによって生成されたモデルは、MLのトップエキスパートによって手動で作成されたモデルと同等の品質を持ちます。
私たちのソリューションをベンチマークするために、KaggleDaysイベントの一環として、KaggleDays SF Hackathonという、1チームあたり最大3人のメンバーによる74チームの8.5時間のコンペティションにAutoMLを参加させました。
AutoMLがKaggleの参加者と初めて競合したのは、自動車部品の材料特性と試験結果に関する情報が与えられたときに製造上の欠陥を予測することでした。
多くのGrandMasterレベルのエキスパートを含む、Kaggleプログレッションシステムマスターレベルの参加者との競争にもかかわらず、私たちのチーム「Google AutoML」は1日の大半をリードし、最終リーダーボードで僅差の2位となりました。
私たちのチームのAutoMLソリューションは多段のTensorFlowパイプラインでした。第一段階では、自動機能設計、アーキテクチャー検索、および検索によるハイパーパラメーターの調整を行います。
第一段階で有望と見なされたモデルは第二段階に進み、そこでは交差検証とブートストラップ集約がより良いモデル選択のために使用されます。その後、第2段階で最も優れたモデルが最終モデルに組み合わされます。
3.AutoML Tables:表形式データのためのAutoMLソリューション(1/2)関連リンク
1)ai.googleblog.com
An End-to-End AutoML Solution for Tabular Data at KaggleDays
コメント