1.Stable Diffusion 2.0とStable Diffusion 1.5とStable Diffusion 1.4の比較まとめ
・プロンプト中の文字をイラスト内に入れ込む能力が各段に向上している
・有名人や版権ものキャラクターの画像が生成しにくくなったことはなさそう
・stable diffusion 2.0ではプロンプトエンジニアリングが更に有効になりそう
2.比較的長いプロンプトを使って3モデルを比較
Stable Diffusion 2.0とStable Diffusion 1.5とStable Diffusion 1.4ではプロンプトを解釈する能力がだいぶ変っているのではないかと思い、長いプロンプトで生成した画像を並べて比較してみたくなりました。
各モデルで同じプロンプトで画像を9枚作成してそのうち3つをピックアップしています。
それではさっそくスタートです。
1.少女のイラスト
Stable Diffusion 2.0
Stable Diffusion 1.5
Stable Diffusion 1.4
2.男性の写真
Stable Diffusion 2.0
Stable Diffusion 1.5
Stable Diffusion 1.4
3.女性の写真
Stable Diffusion 2.0
Stable Diffusion 1.5
Stable Diffusion 1.4
4.女性のイラスト
Stable Diffusion 2.0
Stable Diffusion 1.5
Stable Diffusion 1.4
5.建物のイラスト
Stable Diffusion 2.0
Stable Diffusion 1.5
Stable Diffusion 1.4
6.部屋のイラスト
Stable Diffusion 2.0
Stable Diffusion 1.5
Stable Diffusion 1.4
7.映画のポスター
Stable Diffusion 2.0
Stable Diffusion 1.5
Stable Diffusion 1.4
8.映画のキャラクター
Stable Diffusion 2.0
Stable Diffusion 1.5
Stable Diffusion 1.4
格段に向上しているのはプロンプト中の文字をイラスト内に入れ込む能力ですね。これは、凄い、今まではこんなに簡単にできませんでした。
2.0は画像を精査しているため、有名人や版権ものキャラクターの画像は生成しにくくなったのではないかとの噂もありましたが、全く生成できないと言うわけではなさそうです。
人物画像そのものの品質は甲乙つけがたい部分も感じます。2.0は安定性が増している気がしますが、傾向が似た画一的な画像が多く生成される気がします。1.X系列はムラがありますが、多様性はあり、良い方に転ぶと面白い画像ができます。
建物、部屋などの風景画像にも同様な傾向を感じます。
男性の写真でわかりますが、こちらのプロンプトの意図を組む能力はやっぱりかなり向上しているように感じます。
総括としてstable diffusion 2.0ではプロンプトの言い回しの工夫、すなわちプロンプトエンジニアリングが今までのモデルより更に反映されやすくなっているのではないかと思います。