Image GPT：自然言語処理用の人工知能で画像を生成(1/3)

１．Image GPT：自然言語処理用の人工知能で画像を生成(1/3)まとめ

・文章生成で有名になった人工知能を画像でトレーニングすると品質の高い画像を生成できた
・iGPTと名付けられたこのモデルは物体の外観など画像の特性を理解しているように見える
・iGPTに半分に切った画像を与えると残りの半分を補完してもっともらしい画像を生成できる

２．iGPTとは？

以下、openai.comより「Image GPT」の意訳です。元記事の投稿は2020年6月17日、Mark ChenAlecさんとRadfordIlya Sutskeverさんによる投稿です。

Image GPTは出ている事は知っていたのですが、画像生成と言う事でVideoBERTなどの他のモデルと内容が少し被ってるのかな、と勘違いしてました。しかし、詳しく読んだら実は文章生成で有名になったGPT-2と同一モデルであり、学習用データを画像に変えただけで画像生成ができてしまって、そして学習効率は悪いけれども最新の画像処理専用モデルと結構いい感じの勝負が出来る程の特徴表現を習得しているというお話であり、衝撃を受けました。

画像は文章と違って真偽も辻褄もないため「偽画像」と言うよりは「芸術的解釈／斬新なデザイン」に達しているように感じられるレベルの画像も数多く出力されています。デザイン関係のお仕事が将来的に全てなくなる事はないとは思いますが、従来5人でやっていた仕事を3人でやるような未来が来て、本来は生産性が上がったと喜ばしい事なのかもしれませんが、過剰になった2名は無事にキャリアチェンジが出来るのかという事と、特に日本では業界全体でダンピング競争が始まる可能性があり、段々と皆がシンドイ世の中になっていくのではないかと心配です。

まぁ、現時点では64 x 64という画像とも言えないレベルの小画像しか扱えないのですが、既にパラメータ数が100倍になった後継モデルGPT-3が発表されており、マイクロソフトとの提携も決まっており、ユニバーサルベーシックインカム早く来てくれないかな、と言うのが正直な感想です。

それと、文章と画像を両方扱える人工知能は、まだ「弱い人工知能(特定の作業に関して人間同等以上の処理をする事が出来る)」扱いで良いのでしょうか？「強い人工知能(汎用人工知能)」と「弱い人工知能」の区分けも段々とあやふやになってきているように感じます。

アイキャッチ画像のクレジットはPhoto by Soragrit Wongsa on Unsplash

自然言語を使ってトレーニングされた大規模なTransformerモデルが辻褄の合った文章を生成できるのと同様に、連続する画素を使ってトレーニングした全く同じモデルが辻褄が合うように補完した画像を生成できる事を発見しました。

「モデルが生成した画像の品質」と「モデルの画像分類精度」の間に相関関係がある事を確かめ、私達の最高の生成モデル内に、教師なし設定で、最高の畳み込みネットに匹敵する特徴表現が含まれている事を示します。

１．前書き

教師なし学習と自己教師あり学習、または人間がラベル付けしたデータを使用しない学習は、機械学習の長年の課題です。

近年、BERT、GPT-2、RoBERTa、T5、およびその他の種類のTransformerモデルが様々な言語タスクで最高のパフォーマンスを達成し、自然言語の分野で信じられないほどの成功を収めています。

しかしながら、これらの様々なモデルも、画像分類のための強力な特徴表現を生成することには成功していません。私達の研究は、このギャップを理解し、埋めることを目的としています。

BERTやGPT-2などのTransformerモデルは特定の分野に依存しないため、任意の形式の連続した一次元データに直接適用できます。

長い連続した画素の並びに展開された画像でGPT-2をトレーニングし、これをiGPTと命名しました。iGPTは物体の外観やカテゴリなどの二次元画像の特性を理解しているように見えることがわかります。

これは、人間が提供したラベルによる導きがなくても、生成される様々な画像の辻褄が合っているように見える事から証明されます。さらなる証拠として、モデルが習得した特徴表現は、多数の分類データセットで最先端の教師なし学習による分類精度と同等の精度を実現します。

EVALUATION	DATASET	OUR RESULT		BEST NON-iGPT RESULT
Logistic regression on learned features (linear probe)	CIFAR-10	96.3	iGPT-L 32×32 w/ 1536 features	95.3	SimCLR w/ 8192 features
	CIFAR-100	82.8	iGPT-L 32×32 w/ 1536 features	80.2	SimCLR w/ 8192 features
	STL-10	95.5	iGPT-L 32×32 w/ 1536 features	94.2	AMDIM13 w/ 8192 features
	ImageNet	72.0	iGPT-XL(a) 64×64 w/ 15360 features	76.5	SimCLR w/ 8192 features
Full fine-tune	CIFAR-10	99.0	iGPT-L 32×32, trained on ImageNet	99.0(b)	GPipe, trained on ImageNet
	ImageNet 32×32	66.3	iGPT-L 32×32	70.2	Isometric Nets

(a)iGPT-XLはImageNetの線形探触子(linear probe)の精度のみを示しています。別のスーパーコンピュータに移行する必要があったのですが他の実験が終了しなかったためです。
(b)JFT(18,000クラスの300万画像)でトレーニングされたBit-Lは、99.3の結果を達成しました。

汎用の教師なし学習アルゴリズムとしての生成シーケンスモデリング(generative sequence modeling)の可能性を強調するために、自然言語処理で使ったGPT-2と全く同じtransformerアーキテクチャを敢えて使用しました。

その結果、教師なしの畳み込みネットワークの上位陣に匹敵する特徴表現を生成するためには、大幅に多くの計算が必要になりました。

しかしながら、私達の結果は、どのようなモデルが正解なのかわからない新しい分野に直面した際、大規模なGPT-2モデルが、新しい分野に固有のアーキテクチャ設計をせずとも優れた特徴表現を学習できることを示しています。

２．画像の補完

(スマートフォンの場合はフリックで左右にスライドできます)

お気に入り

人間が提供した1/2画像(左端)を補完してモデルが生成した画像
右端はオリジナルの画像です。残りの半分を強度1(temperature 1)でサンプリングしました。ビームサーチやnucleus samplingなどのトリックは使用していません。最初のパネル「お気に入り」では気に入った補完事例を紹介していますが、その他のパネルでは意図的に良く見えるような画像を一切選択してはいません。

３．サンプル

モデルが生成した画像のサンプル
これらの画像は強度1でサンプリングし、ビームサーチやnucleus samplingなどのトリックは使用していません。見栄えの良い画像を意図的に選択する事もしていません。全てのサンプルが表示されます。(訳注：元サイトの画像はボタンを押すと他の画像に更新されるような作りになっています)生成されたほぼ全ての画像に、はっきりと認識できる何らかの物体が含まれています。

３．Image GPT：自然言語処理用の人工知能で画像を生成(1/3)関連リンク

１）openai.com
Image GPT
Generative Pretraining from Pixels V2(PDF)

２）github.com
openai / image-gpt