Big Transfer(BiT):視覚タスクで大規模な事前トレーニングを活用(2/3)

１．Big Transfer(BiT):視覚タスクで大規模な事前トレーニングを活用(2/3)まとめ

・BERTと同様にBiTも事前トレーニング済みのモデルを下流タスク用データで微調整をして転移学習する
・事前トレーニングで使用する画像の量とモデルの容量を増やすと微調整後モデルの性能が大幅に向上
・VTABを使った試験でも以前の最先端技術と比べて5.8%の絶対的なスコア改善を達成した

２．BiTのパフォーマンス

以下、ai.googleblog.comより「Open-Sourcing BiT: Exploring Large-Scale Pre-training for Computer Vision」の意訳です。元記事の投稿は2020年5月21日、Lucas BeyerさんとAlexander Kolesnikovさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by michael schaffler on Unsplash。

転移学習
BERTによって自然言語領域で確立された転移学習手法に従いました。すなわち、事前トレーニング済みのBiTモデルを、実行したい様々な「下流」タスク用のデータを使って微調整するのです。

これらの下流タスクには、利用可能なラベル付けされたデータがほとんどない場合がありますが、事前トレーニング済みモデルは事前学習によって既に視覚を用いた世界をよく理解しているため、この単純な微調整戦略は非常にうまく機能します。

微調整の際は、学習率(learning-rate)や重みの減衰(weight decay)など、多くのハイパーパラメータを選択する必要があります。

私達は、これらのハイパーパラメータを選択する際に使用できる発見的なルールとして、「BiT-HyperRule」を提案します。BiT-HyperRuleは、画像の解像度やラベル付けされたデータの数など、データセットの特性に基いて設定されます。私達はBiT-HyperRuleを自然画像から医療画像に至るまで、20を超えるさまざまなタスクに適用しました。

BiTモデルを事前トレーニングした後、使用可能なラベル付きデータがほとんどない場合でも、任意の視覚タスク用に微調整できます。