Dall-E 2、Midjourney、Stable Diffusionなど文章から画像を生成する人工知能の一覧

１．Dall-E 2、Midjourneyなど文章から画像を生成する人工知能の一覧まとめ

・入力した文章を元に新しい画像を高品質で生成する人工知能が注目を集めている
・大まかに商用サービス、一般向け技術デモ、研究者向け技術デモの3パターンがある
・新規サービス公開が活発なので全部を網羅はできていないが全体像とレベル感は掴める

２．文章から画像を生成する人工知能の一覧

アイキャッチ画像は自己所有のパソコンで動かしているlatent diffusionで入力テキストは「Nausicaa of the Valley of the Wind.」、カードゲームやビデオゲームのパッケージを連想していますね。

最近、入力した文章を元に新しく画像を生成する人工知能が注目を集めています。

どんなレベルのモデルが現時点で利用可能なのかを簡単にリストを作ってみました。現在、次々と新しいモデル／サービスが公開されているので、完全な網羅はできていません。

なお、商用サービスから流出したと考えられるモデルや流出したモデルに微調整を加えただけなのにオリジナルモデルと称して公開しているものなど、起源や出所が不明確なモデルも激増しています。

モデル内には原理的には悪意ある動作を仕込む事が可能と言われています。現在のところは、まだ私は実際の被害を聞いたことはなく、ウィルス検知ソフトが誤検知したケースしか知りませんが、出所不明なファイルの取り扱いについては十分注意してください。

本ページでは「Nausicaä of the Valley of the Wind.」(スタジオジブリの「風の谷のナウシカ」の英語版タイトルです。ナウシカを選択したのは私の好みですが、「風の谷」に注目するパターンと「ナウシカ」に注目するパターンで別れるので適切な入力文だったかもしれません)というテキストを入力に与えた際に出力された画像も添付しているので、各モデルの品質や全体像、どのような画像を学習データとして使用していそうかをさっと掴むためには役立つと思います。

大まかに３つのカテゴリに分かれます。

（１）商用サービスを見据えているもの
品質は高いですが、自由に使わせて貰えるわけではなく有料もしくは何らかの形で利用制限があります。

（２）研究成果を組み合わせて一般向けに公開したデモ
Webページ上で簡単に実行できる形で公開されているモデルです。必ずしもモデルを開発した人とデモとして公開した人は同一ではなく、サーバーも混雑気味でエラーになる事があります。

（３）研究成果を組み合わせて技術者向けに公開したデモ
モデルも公開されており、知識と高スペックパソコンがあれば好きなだけ自分専用の環境でカスタマイズして動かせます。しかし、必ずしも丁寧に動かし方が解説されているわけではないので動作させるまでに苦労する事もあります。

（１）商用サービスを見据えているもの

「文章による指示(プロンプトと言います)を元に画像を生成する人工知能」として2021年に話題になったのは、DALL·Eです。「犬の散歩をするバレリーナ用衣装を着た大根の赤ちゃんのイラスト(an illustration of a baby daikon radish in a tutu walking a dog)」という非常に複雑なプロンプトに見事に応えたイラストを生成し話題になりました。

DALL·Eが「an illustration of a baby daikon radish in a tutu walking a dog」という入力プロンプトを元に生成したイラスト

2022年現在、話題になっているのはDALL·Eの後継モデルであるDALL·E 2です。DALL·E 2は人間の評価で「言語で与えた指示に適切か？」では71.7%、「写真画質」の点では88.8%以上の差でDALL·E 1よりも好まれるという品質の向上を達成しています。

DALL·E 2レベルの品質の画像は、人間にはそれが人工知能が生成した画像なのか現実の写真なのか見分けがつきません。そのため、こういった画像生成系のAIは悪用や誤用される危険性があり、これを防止するために、一般向けに公開されていないケースがあります。DALL·E 2も現在は限られた招待された人のみが使用できるベータテスト中(7月20日より順次100万人の希望者を招待予定との事なので興味を持っている方はOpenAIの待機リストに登録しておくと良いかもです)となっています。

Googleが開発したImagenは公開されているデモ画像を見る限り複雑な文章による指示を解釈する能力はDALL·E 2より高そうなのですが、こちらも非公開なので試す事はできません。いずれ、何らかのGoogle製品に何らかの形で組み込まれると思います。

Imagenが「A majestic oil painting of a raccoon Queen wearing red French royal gown.The painting is hanging on an ornate wall decorated with wallpaper.」(赤いフランス王室のガウンを着たアライグマの女王を描いた壮麗な油絵。壁紙で飾られた華やかな壁に掛けられている)を元に生成した画像

Midjourneyは最近、幻想的で美麗な画像を簡単に作成出来る事でイラストレーターの方達からも注目を集めています。discordという欧米で人気のあるチャットアプリ(ブラウザからも利用可)でMidjourneyのサーバーに参加してコマンドを実行させる事で枚数制限はありますが無料で実行できます。

Stable Diffusionは8月末に学習済モデルをオープンソースとして誰でも利用できる形式で公開された事で一躍有名になりました。オープンソースとは何ぞや？と思った方はデザイナーさんやイラストレーターさんのためのstable diffusion入門を書いているのでそちらをご覧ください。現在はStable Diffusionをベースにした新しいモデルやサービスが毎日のように新規公開されている状態です。また、モデル同士をマージさせる新手法で開発されたモデルも新たに開発されています。

開発元	モデル(サービス名称)	利用可？	Nausicaä of the Valley of the Wind.
stability.ai RunwayML	Stable Diffusion (dreamstudio.ai)	メールアドレス登録制で200枚まで生成可能。オープンソースとして学習済Stable Diffusionを公開した本家企業が提供する商用サービス。Stable Diffusionは一般向けに公開したデモも多数存在し、それらは未登録で利用できるものもあります。「研究成果を組み合わせて一般向けに公開したデモ」の項を参照してください。
Google	Imagen	完全非公開
OpenAI	Dall-E 2	ベータテストに参加した人のみ。登録時使用枠50付与。以降、毎月15追加。Out-paintingといって生成した画像の外を更にパノラマ的に画像を追加する拡張が最近追加されました。また、Dall-E 2と同じ設計のモデルをStable Diffusionの学習データで学習させてオープンソース化したkarloが公開されています。
独立系	Midjourney	discordから25枚まで無料生成可能、それ以上はGPU代金として$10/月等の有料サブスク。Midjourneyを使って作成した絵で(人間向け)デジタルアートコンテストに参加した人が優勝した事で物議をかもした。
独立系	Night Café	ブラウザで利用可なクレジット制(無料枠あり) お題をクリアすると追加クレジットが貰えるのか、Twitter上の投稿数はMidjourneyに次ぐ勢い
Wombo AI	Dream by WOMBO	ブラウザで無料利用可

（２）研究成果を組み合わせて一般向けに公開したデモ

Dall E Miniは初代Dall Eをベースに独立系研究者の方が、自力でトレーニングして公開してくれたモデルです。同じモデルをより多くのデータで学習させたものをDall E Megaと呼称しているケースもあります。

Craiyonは同じ独立系研究者の人が独立したサービスとして立ち上げたものです。

開発元	モデル名称	利用可？	Nausicaä of the Valley of the Wind.
独立系	Latent Diffusion	混んでいるがブラウザで無料利用可
独立系	Dall E Mini	混んでいるがブラウザで無料利用可
独立系	Craiyon	混んでいるがブラウザで無料利用可
DeepAI	Text To Image API	ブラウザで無料利用可能
独立系	glid-3-xl	ブラウザで無料利用可能
独立系	vq-diffusion	ブラウザで無料利用可能
独立系	Laionide-v3	ブラウザで無料利用可
独立系	Stable Diffusion	ブラウザで無料利用可