Image GPT：自然言語処理用の人工知能で画像を生成(3/3)

１．Image GPT：自然言語処理用の人工知能で画像を生成(3/3)まとめ

・iGPTが強力な画像特徴表現を学習可能で教師有り、半教師モデルと匹敵する事が示された
・しかしGPUにV100を使って延べ2500日が必要で画像専用モデルの約35倍の計算が必要
・十分な計算機資源があればsequence transformerが多くの分野で優れた成果を出す可能性有

２．iGPTの性能の検証

以下、openai.comより「Image GPT」の意訳です。元記事の投稿は2020年6月17日、Mark ChenAlecさんとRadfordIlya Sutskeverさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Soragrit Wongsa on Unsplash

次の結果は、生成画像のパフォーマンスと特徴表現品質がリンクしている事を示しています。モデルの規模を拡大することと、より多くの反復をトレーニングすることの両方が、より良い生成パフォーマンスをもたらし、それが直接、より良い特徴表現の品質につながることがわかりました。

各線は、生成的事前トレーニングを行った各モデルを追跡してます。
4つの点は、ステップ13.1万、26.2万、52.4万、および100万回のチェックポイントを示します。右上向きの勾配は、生成パフォーマンスの向上と特徴表現品質の向上との関連を示唆しています。大きいモデルは、小さいモデルよりも優れた特徴表現を生成します。iGPT-XLは、別のデータセットでトレーニングされているため、本図には含まれていません。

CIFAR-10、CIFAR-100、およびSTL-10で線形探触子(linear probe)を使用して特徴を評価すると、全ての教師有りおよび教師なし転移アルゴリズムの特徴表現よりもパフォーマンスが優れています。私たちの結果は、微調整を行う完全設定の条件下でも説得力があります。

EVALUATION	MODEL	ACCURACY	W/O LABELS	W/ LABELS
CIFAR-10	ResNet-152	94.0		○
Linear Probe	SimCLR	95.3	○
	iGPT-L 32×32	96.3	○
CIFAR-100	ResNet-152	78.0		○
Linear Probe	SimCLR	80.2	○
	iGPT-L 32×32	82.8	○
STL-10	AMDIM-L	94.2	○
Linear Probe	iGPT-L 32×32	95.5	○
CIFAR-10	AutoAugment	98.5
Fine-tune	SimCLR	98.6	○
	GPipe	99.0		○
	iGPT-L	99.0	○
CIFAR-100	iGPT-L	88.5	○
Fine-tune	SimCLR	89.0	○
	AutoAugment	89.3
	EfficientNet	91.7		○

ImageNet転送を利用する教師なしまたは教師ありのトップパフォーマンスモデルと私達のモデルを線形プローブと微調整後精度で比較
CIFARでエンドツーエンドでトレーニングされた最高のパフォーマンスを発揮するモデルであるAutoAugmentも比較対象に含めました。

ImageNetを使った教師なし学習と自己教師あり学習への関心が再び高まっていることを踏まえ、ImageNetで線形プローブを使用してモデルのパフォーマンスを評価しました。標準的なImageNet画像の解像度を使ってトレーニングをしないため、これは特に困難な状況です。それにもかかわらず、48 x 48解像度の画像でトレーニングされたiGPT-Lのベストなレイヤーから取得した1536特徴の線形プローブは、65.2％のトップ1精度をもたらし、これはAlexNetを上回りました。

対照的な手法では、通常、8192の特徴で最良の結果が得られるため、比較のためはに、embeddingの次元が8192のiGPTを評価するのが理想的です。ただし、このようなモデルのトレーニングは非常に計算コストがかかるため、代わりに、近似として複数のレイヤーからの特徴表現を取得して連結しました。残念ながら、私達の特徴表現はレイヤー間で相関する傾向があるため、競争力を高めるには更に多くの特徴が必要となりました。iGPT-XLの5つのレイヤーから15360の特徴を取得すると、72.0%のtop1精度が得られ、AMDIM、MoCo、およびCPC v2を上回りますが、SimCLRはかなりの差で下回ります。

METHOD	INPUT RESOLUTION	FEATURES	PARAMETERS	ACCURACY
Rotation	original	8192	86M	55.4
iGPT-L	32×32	1536	1362M	60.3
BigBiGAN	original	16384	86M	61.3
iGPT-L	48×48	1536	1362M	65.2
AMDIM	original	8192	626M	68.1
MoCo	original	8192	375M	68.6
iGPT-XL	64×64	3072	6801M	68.7
SimCLR	original	2048	24M	69.3
CPC v2	original	4096	303M	71.5
iGPT-XL	64×64	3072 x 5	6801M	72
SimCLR	original	8192	375M	76.5

私達のモデルと最先端の自己教師モデルの間の線形プローブ精度の比較
私達の手法はより多くのパラメーターと計算を必要とし、入力画像の解像度もはるかに低いのですが、競争力のあるパフォーマンスを達成しました。

BERTのようなマスク言語モデルは、ほとんどの言語タスクで生成モデルを上回っているため、BERTの画像に対するパフォーマンスも評価しました。先行するすべての画素を指定して次の画素を予測するようにモデルをトレーニングする代わりに、画素の15％をマスクし、マスクされていない残りの画素を使って予測するようにモデルをトレーニングしました。BERTモデルの線形プローブのパフォーマンスは大幅に低下しますが、微調整時にこれを取り戻す事がわかりました。

32² × 3の入力解像度でiGPT-Lを使用した生成的事前トレーニングとBERTを使用した事前トレーニングの比較。濃い色の部分は、BERTマスクをアンサンブルすることによるパフォーマンスの向上を示しています。生成モデルは、事前トレーニング後にBERTモデルよりもはるかに優れた特徴表現を生成することがわかりますが、BERTモデルは微調整後に追いつきます。

教師なし学習は、人間がラベル付けしたデータを必要とせずに優れた機能を約束しますが、限られた量の人間がラベル付けしたデータを使用する事が出来る半教師あり学習のより寛容なフレームワークの下で、最近大きな進歩が見られました。

成功する半教師有り学習法は、一貫性の正則化(consistency regularization)、データの水増し(data augmentation)、疑似ラベル付け(pseudo-labeling)などの巧妙な手法に依存することが多く、純粋な生成ベースのアプローチは何年も競争力がありませんでした。

しかし、このサブフィールドの競合ベンチマークでiGPT-Lを評価すると、水増しを行っていない画像から学習した特徴表現に対する単純な線形プローブは、FixMatchを下回っていますが、Mean TeacherおよびMixMatchを上回っています。

MODEL	40 LABELS	250 LABELS	4000 LABELS
Improved GAN	—	—	81.4 ± 2.3
Mean Teacher	—	67.7 ± 2.3	90.8 ± 0.2
MixMatch	52.5 ± 11.5	89.0 ± 0.9	93.6 ± 0.1
iGPT-L	73.2 ± 1.5	87.6 ± 0.6	94.3 ± 0.1
UDA	71.0 ± 5.9	91.2 ± 1.1	95.1 ± 0.2
FixMatch RA	86.2 ± 3.4	94.9 ± 0.7	95.7 ± 0.1
FixMatch CTA	88.6 ± 3.4	94.9 ± 0.3	95.7 ± 0.2

データが比較的少ないCIFAR-10でのパフォーマンスの比較
ラベルがない多くのImageNet画像を活用することで、iGPT-Lは、Mean TeacherやMixMatchなどの手法を上回りますが、それでも最先端の手法は下回ります。私達の半教師あり学習手法は非常に単純です。データの水増しや微調整を行わずに、ロジスティック回帰をiGPT-Lの特徴表現に適用するだけです。これは、特別に設計された半教師あり手法とは大きく異なります。

制限事項
iGPTが強力な画像特徴表現を学習できる事を示しましたが、私達のアプローチには依然として重大な制限があります。自然言語でGPT-2に使用された汎用sequence transformerを使用するため、今回の手法では大量の計算が必要でした。iGPT-LはGPUにV100を使って延べ2500日間(2500 V100-days)トレーニングされましたが、同様なパフォーマンスを出せるMoCo24モデルは70 V100-daysのトレーニングで済みます。

関連して、今回のtransformerを使用した手法では低解像度画像を入力としましたが、ほとんどの自己教師型モデルは、高解像度画像を入力として簡単に取り扱う事ができる畳み込みベースのエンコーダーを使用します。

transformerモデルを更に拡張するためには、分野に依存しないマルチスケールtransformerなどの新しいアーキテクチャが必要になる可能性があります。

これらの制限を考えると、私達の今回の研究は主に、特定領域に固有の知識を必要とせずに、新しい領域で優れた教師なし表現を学習できる大規模なtransformerベースの言語モデルの能力の概念実証として成功したと言えます。

しかしながら、これらのモデルをトレーニングするための膨大な計算コストと、最近の畳み込みニューラルネットワークベースの手法の精度の向上により、これらの特徴表現を現実の視覚関連のアプリケーションに採用するのは不可能でしょう。

最後に、生成モデルは、トレーニングに使ったデータが内包する偏り(bias)を示す可能性があります。これらの偏りの多くは便利に利用する事はできます。例えば、茶色と緑色の画素の組み合わせが葉で覆われた枝を表現する事を想定し、偏り傾向を使用して画像を補完する事などが出来ます。

しかし、公平性と象徴性のレンズを通して考えると、これらの偏りのいくつかは有害です。例えば、モデルが科学者の視覚的概念を男性に偏って覚えてしまった場合、科学者の画像を補完する際には、常に性別を偏らせて、男性のみを補完して完成させる可能性があります。

人工知能の開発者は、システムに与えるデータにますます注意を払い、それがトレーニング済みモデルの偏りとどのように関連しているかをよりよく理解する必要があると予想されます。

結論
2次元データに関する見識と計算量をトレードオフし、ネットワークの中央部から予測した特徴表現を選択することにより、sequence transformerは最上位の教師なし画像分類畳み込みネットワークと競合できる事を示しました。

特筆すべき事は、GPT-2言語モデルを画像生成に直接適用することでこの結果を達成した事です。

私達の結果は、その単純さと一般性のために、十分な計算機資源が与えられたsequence transformerが最終的に多くの分野で優れた特徴表現を学習する効果的な手法となる可能性を示唆しています。

この分野の研究に興奮し、私達と一緒に研究したいと思ってくれたのなら、私達は採用活動をしていますよ！

３．Image GPT：自然言語処理用の人工知能で画像を生成(3/3)関連リンク

１）openai.com
Image GPT
Generative Pretraining from Pixels V2(PDF)

２）github.com
openai / image-gpt