Dall-E 2、Midjourney、Stable Diffusionなど文章から画像を生成する人工知能の一覧

AI

1.Dall-E 2、Midjourneyなど文章から画像を生成する人工知能の一覧まとめ

・入力した文章を元に新しい画像を高品質で生成する人工知能が注目を集めている
・大まかに商用サービス、一般向け技術デモ、研究者向け技術デモの3パターンがある
・新規サービス公開が活発なので全部を網羅はできていないが全体像とレベル感は掴める

2.文章から画像を生成する人工知能の一覧

アイキャッチ画像は自己所有のパソコンで動かしているlatent diffusionで入力テキストは「Nausicaa of the Valley of the Wind.」、カードゲームやビデオゲームのパッケージを連想していますね。

最近、入力した文章を元に新しく画像を生成する人工知能が注目を集めています。

どんなレベルのモデルが現時点で利用可能なのかを簡単にリストを作ってみました。なお、現在、次々と新しいモデル/サービスが公開されているので、完全な網羅はできていません。

しかし、「Nausicaä of the Valley of the Wind.」(スタジオジブリの「風の谷のナウシカ」の英語版タイトルです。ナウシカを選択したのは私の好みですが、「風の谷」に注目するパターンと「ナウシカ」に注目するパターンで別れるので適切な入力文だったかもしれません)というテキストを入力に与えた際に出力された画像も添付しているので、品質や全体像、どのような画像を学習データとして使用していそうかをさっと掴むためには役立つと思います。

大まかに3つのカテゴリに分かれます。

(1)商用サービスを見据えているもの
品質は高いですが、自由に使わせて貰えるわけではなく有料もしくは何らかの形で利用制限があります。

(2)研究成果を組み合わせて一般向けに公開したデモ
Webページ上で簡単に実行できる形で公開されているモデルです。必ずしもモデルを開発した人とデモとして公開した人は同一ではなく、サーバーも混雑気味でエラーになる事があります。

(3)研究成果を組み合わせて技術者向けに公開したデモ
モデルも公開されており、知識と高スペックパソコンがあれば好きなだけ自分専用の環境でカスタマイズして動かせます。しかし、必ずしも丁寧に動かし方が解説されているわけではないので動作させるまでに苦労する事もあります。

(1)商用サービスを見据えているもの

「文章による指示(プロンプトと言います)を元に画像を生成する人工知能」として2021年に話題になったのは、DALL·Eです。「犬の散歩をするバレリーナ用衣装を着た大根の赤ちゃんのイラスト(an illustration of a baby daikon radish in a tutu walking a dog)」という非常に複雑なプロンプトに見事に応えたイラストを生成し話題になりました。


DALL·Eが「an illustration of a baby daikon radish in a tutu walking a dog」という入力プロンプトを元に生成したイラスト

2022年現在、話題になっているのはDALL·Eの後継モデルであるDALL·E 2です。DALL·E 2は人間の評価で「言語で与えた指示に適切か?」では71.7%、「写真画質」の点では88.8%以上の差でDALL·E 1よりも好まれるという品質の向上を達成しています。

DALL·E 2レベルの品質の画像は、人間にはそれが人工知能が生成した画像なのか現実の写真なのか見分けがつきません。そのため、こういった画像生成系のAIは悪用や誤用される危険性があり、これを防止するために、一般向けに公開されていないケースがあります。DALL·E 2も現在は限られた招待された人のみが使用できるベータテスト中(7月20日より順次100万人の希望者を招待予定との事なので興味を持っている方はOpenAIの待機リストに登録しておくと良いかもです)となっています。

Googleが開発したImagenは公開されているデモ画像を見る限り複雑な文章による指示を解釈する能力はDALL·E 2より高そうなのですが、こちらも非公開なので試す事はできません。いずれ、何らかのGoogle製品に何らかの形で組み込まれると思います。


Imagenが「A majestic oil painting of a raccoon Queen wearing red French royal gown.The painting is hanging on an ornate wall decorated with wallpaper.」(赤いフランス王室のガウンを着たアライグマの女王を描いた壮麗な油絵。壁紙で飾られた華やかな壁に掛けられている)を元に生成した画像

Midjourneyは最近、幻想的で美麗な画像を簡単に作成出来る事でイラストレーターの方達からも注目を集めています。discordという欧米で人気のあるチャットアプリ(ブラウザからも利用可)でMidjourneyのサーバーに参加してコマンドを実行させる事で枚数制限はありますが無料で実行できます。

開発元モデル名称利用可?Nausicaä of the Valley of the Wind.
stability.aidreamstudio.aiメールアドレス登録制で200枚まで生成可能。オープンソースとして学習済Stable Diffusionを公開した本家企業が提供する商用サービス。Stable Diffusionは一般向けに公開したデモも多数存在し、それらは未登録で利用できるものもあります。「研究成果を組み合わせて一般向けに公開したデモ」の項を参照してください。
GoogleImagen完全非公開
OpenAIDall-E 2ベータテストに参加した人のみ。登録時使用枠50付与。以降、毎月15追加。Outpaintingといって生成した画像の外を更にパノラマ的に追加する機能が最近追加された。
GoogleImagen完全非公開
独立系Midjourneydiscordから25枚まで無料生成可能、それ以上はGPU代金として$10/月等の有料サブスク。Midjourneyを使って作成した絵で(人間向け)デジタルアートコンテストに参加した人が優勝した事で物議をかもした。
独立系Night Caféブラウザで利用可なクレジット制(無料枠あり)

お題をクリアすると追加クレジットが貰えるのか、Twitter上の投稿数はMidjourneyに次ぐ勢い

Wombo AIDream by WOMBOブラウザで無料利用可

(2)研究成果を組み合わせて一般向けに公開したデモ

Dall E Miniは初代Dall Eをベースに独立系研究者の方が、自力でトレーニングして公開してくれたモデルです。同じモデルをより多くのデータで学習させたものをDall E Megaと呼称しているケースもあります。

Craiyonは同じ独立系研究者の人が独立したサービスとして立ち上げたものです。

開発元モデル名称利用可?Nausicaä of the Valley of the Wind.
独立系Latent Diffusion混んでいるがブラウザで無料利用可
独立系Dall E Mini混んでいるがブラウザで無料利用可
独立系Craiyon混んでいるがブラウザで無料利用可
DeepAIText To Image APIブラウザで無料利用可能
独立系glid-3-xlブラウザで無料利用可能
独立系vq-diffusionブラウザで無料利用可能
独立系Laionide-v3ブラウザで無料利用可
独立系Stable Diffusionブラウザで無料利用可

(3)研究成果を組み合わせて技術者向けに公開したもの

以下はGoogle Colaboratory(略称Colab)で動かす前提で公開されているモデルです。

開発元モデル名称利用可?Nausicaä of the Valley of the Wind.
独立系MindsEye知識があればColabで無料利用可
独立系VQGAN+CLIP知識があればColabで無料利用可 

なお、latent diffusionDALL·E 2MidjourneyCraiyonstable diffusionにはもう少し様々なプロンプトでナウシカを描いて貰うように頼んでみたので比較の際は参照してみてください。

タイトルとURLをコピーしました