ディープラーニング比較用のベースラインを利用しやすくする(1/2)

１．ディープラーニング比較用のベースラインを利用しやすくする(1/2)まとめ

・MLモデルのパフォーマンスは「基準となるモデル(ベースライン)」と比較して測定される
・ベースラインモデルを説明している論文からベースラインモデルを完全再現するのは難しい
・新アイデアが実際に意味があるかを測定するには共通ベースラインと比較する必要がある

２．Uncertainty Baselinesとは？

以下、ai.googleblog.comより「Baselines for Uncertainty and Robustness in Deep Learning」の意訳です。元記事は2021年10月14日、Zachary NadoさんとDustin Tranさんによる投稿です。

自分でモデルを改良する事に興味がある人は押さえておいた方が良いお話と思います。

Uncertainty(不確実性)を意識したアイキャッチ画像のクレジットはPhoto by Michael Shannon on Unsplash

機械学習(ML:Machine learning)は現実世界のアプリケーションでますます使用されているため、実際のパフォーマンスを確保するには、モデルの不確実性(uncertainty)と堅牢性(robustness)を理解する必要があります。

たとえば、モデルがトレーニングされたデータとは異なるデータに適用された場合、モデルはどのように動作するでしょうか？モデルは、間違いを犯しそうなときにどのような信号を発信するでしょうか？

MLモデルの動作を把握する際、そのパフォーマンスは「基準となるモデル(ベースライン)」を設定し、そのベースラインと比較して性能がどうなっているかで測定されることがよくあります。

各ベースラインモデルを動かすためには、研究者はベースラインモデルを説明している論文に書かれている情報のみを使用してベースラインモデルを再現する必要があり、ベースラインを再現する事が非常に難しい場合があります。

十分に文書化され、維持されている場合は、実験用のコードが利用できると便利な場合があります。ただし、ベースラインを厳密に検証する必要があるため、これでも十分ではありません。

例えば、様々な研究に関する遡及的分析では、著者は、単純で適切に調整されたベースラインがより洗練された手法よりも優れていることに気付くことがよくあります。

モデルが相互にどのように機能するかを真に理解し、研究者が新しいアイデアが実際に意味のある進歩をもたらすかどうかを測定できるようにするには、関心のあるモデルを共通のベースラインと比較する必要があります。

論文「Uncertainty Baselines: Benchmarks for Uncertainty & Robustness in Deep Learning」では不確実性と堅牢性に関する研究の再現性を高めることを目的として、さまざまなタスクのための標準および最先端の深層学習手法の高品質な実装のコレクションである不確実性ベースライン(Uncertainty Baselines)を紹介します。

コレクションは、9つのタスクにまたがる19の手法にまたがり、それぞれに少なくとも5つの指標があります。各ベースラインは、簡単に再利用および拡張可能なコンポーネントを備え、それが記述されているフレームワークの外部への依存関係が最小限である、自己完結型の実験パイプラインです。

含まれているパイプラインは、TensorFlow、PyTorch、およびJaxに実装されています。さらに、各ベースラインのハイパーパラメータは、さらに強力な結果を提供するために、多数の反復に対応可能なように大幅に調整されています。

不確実性のベースライン

本投稿の執筆時点で、不確実性ベースラインは合計83のベースラインを提供し、9つのデータセットにわたる標準およびより最近の戦略を含む19の方法で構成されています。

手法の例には、BatchEnsemble、Deep Ensembles、Rank-1 Bayesian Neural Nets、Monte Carlo Dropout、Spectral-normalized Neural Gaussian Processesが含まれます。これは、コミュニティで人気のあるいくつかのベンチマーク(Can You Trust Your Model’s Uncertainty?、BDL benchmarks、Edward2’s baselines)を併合する後継者として機能します。

Dataset	Inputs	Output	Train Examples	Test Datasets
CIFAR	RGB images	10-class distribution	50,000	3
ImageNet	RGB images	1000-class distribution	1,281,167	6
CLINC Intent Detection	Dialog system query text	150-class distribution (in 10 domains)	15,000	2
Kaggle’s Diabetic Retinopathy Detection	RGB images	Probability of Diabetic Retinopathy	35,126	1
Wikipedia Toxicity	Wikipedia comment text	Probability of toxicity	159,571	3