OptFormer：パラメータ名など言語情報を参考にハイパーパラメータを最適化(1/2)

１．OptFormer：パラメータ名など言語情報を参考にハイパーパラメータを最適化(1/2)まとめ

・ハイパーパラメータの最適化はモデルの性能を左右する可能性があるため大事
・従来のハイパーパラメータ探索法はパラメータ数や範囲が同一である事が前提
・OptFormerは過去の最適化事例からテキスト情報を使ってメタ学習する新手法

２．OptFormerとは？

以下、ai.googleblog.comより「OptFormer:Towards Universal Hyperparameter Optimization with Transformers」の意訳です。元記事は2022年8月18日、Yutian ChenさんとXingyou (Richard) Songさんによる投稿です。

アイキャッチ画像はDALL·E2でプロンプトはOptFormerとだけ入れるとFAXやコピー機っぽい画像で面白味がないので苦し紛れに考えた「賢い熊たちがハイパーパラーメーターチューニングを開発して人工知能を改良しているSFチックな絵(Sci-fi illustration of smart bears developing a hyper-parameter tuning machine to improve the performance of artificial intelligence)」

機械学習において最も重要なことの1つは、ハイパーパラメータの最適化です。機械学習タスクに適したハイパーパラメータを見つけることは、モデルの性能を左右する可能性があるためです。

Google社内では、ハイパーパラメータ最適化のデフォルト・プラットフォームとして、Google Vizierを通常使用しています。過去5年間の展開を通して、Google Vizierは、視覚、強化学習、言語などの機械学習アプリケーションだけでなく、タンパク質発見やハードウェアアクセラレーションなどの科学的アプリケーションなど、膨大な種類のアプリケーションで1000万回以上使用されています。

Google Vizierはそのデータベースで使用パターンを追跡することができます。このようなデータは通常、スタディ(studies)と呼ばれる最適化の軌跡からなり、現実的なハイパーパラメータのチューニング目標に関する非常に貴重な事前情報を含んでいます。そのため、より優れたアルゴリズムを開発する上で非常に魅力的です。

このようなデータを使ってメタ学習を行う手法はこれまでにも数多く存在しますが、それらの手法には共通する大きな欠点があります。

それは、メタ学習の手順がハイパーパラメータの数やその値の範囲といった数値的制約に大きく依存し、その結果、すべてのタスクが完全に同じハイパーパラメータ探索空間(すなわちチューニング仕様)を使用しなければならないということです。

また、スタディの説明やパラメータ名など、追加のテキスト情報もほとんど使用されませんが、これらは最適化されるタスクのタイプに関する意味のある情報を保持することができます。このような欠点は、そのような有意義な情報を大量に含むことが多い大規模なデータセットでは、より悪化します。

本日、私達は「Towards Learning Universal Hyperparameter Optimizers with Transformers」で、OptFormerを紹介します。

OptFormerは柔軟なテキストベースの特徴表現を用いて大規模最適化データから学習する、ハイパーパラメータチューニングのための最初のTransformerベースのフレームワークの1つです。

これまでにも多くの研究が様々な領域でTransformerの強力な能力を実証してきましたが、その最適化に関する能力、特にテキスト空間上での能力に触れるものはほとんどありませんでした。

私達の主な発見は、Transformerのアルゴリズムに関する興味深い能力を初めて実証したことです。

(1)単一のTransformerネットワークは、複数のアルゴリズムによる非常に複雑な動作を長い時間にわたって模倣することができます。

(2)さらに、ネットワークは非常に正確に目的値を予測することができ、多くの場合、ベイズ最適化などのアルゴリズムでよく使われるガウス過程を凌ぎます。

手法：研究をトークンで表現する

私達の研究は、従来手法のように数値データのみを用いるのではなく、自然言語の概念を利用し、初期メタデータのテキスト情報を含め、全ての研究データをトークンの列として表現している点が新しいです。

以下のアニメーションでは、「CIFAR10」、「学習率(learning rate)」、「オプティマイザタイプ(optimizer type)」、「精度(Accuracy)」が含まれ、OptFormerに画像分類タスクである事を通知しています。

OptFormerは次にこのタスクで試す新しいハイパーパラメータを生成し、タスクの精度を予測し、最後に真の精度を受け取って、次回のハイパーパラメータ生成に使用すます。

T5X コードベースを使って、OptFormer は標準的なエンコーダ・デコーダ方式で、Google Vizier で収集した実世界データ、公開ハイパーパラメータ(HPO-B) およびブラックボックス最適化ベンチマーク(BBOB:blackbox optimization benchmarks)など、幅広いハイパーパラメータ最適化の目的に対して標準的な生成的事前訓練を行います。

OptFormerは、トークン・ベースの特徴表現を用いて、ハイパーパラメータ最適化をエンコーダ・デコーダ方式で実行することができます。タイトル、探索空間のパラメータ名、最適化する指標などの情報を含むテキストベースのメタデータ(灰色のボックス内)を最初に観測し、パラメータと目的値の予測を繰り返し出力します。