Stable Diffusion 2.0でDreamBoothを試す

画像生成

1.Stable Diffusion 2.0でDreamBoothを試すまとめ

・Stable Diffusion 2.0として公開されたモデルは全部で5種類ある
・画像生成用にも2種類あり、そのうちBaseモデルの解像度は従来と同じ
・Baseモデルは既存の拡張を適用できるのでDreamBoothを適用した

2.Stable Diffusion 2.0のモデル一覧

アイキャッチ画像は左がstable diffusion1.5、右がstable diffusion2.0の生成。stable diffusion2.0ですがBaseモデルなのでサイズ一緒で縮小はしていません。

Stable Diffusion 2.0として公開されたモデルは画像生成用途が2つ、その他用途が3つで正確には5種類あります。

(1)stabilityai/stable-diffusion-x4-upscaler
画像の解像度を上げるモデルです。他のモデルですが人工知能で生成した画像の解像度をあげた例はこちらです。

(2)stabilityai/stable-diffusion-2-inpainting
In-Painting用のモデルです。1.4を使ったIn-Paintingの例はこちらです。

(3)stabilityai/stable-diffusion-2-depth
深度予測(奥行予測)用のモデルです。深度予測を使うと例えば画像をグリグリ動かす事が出来ます。

(4)stabilityai/stable-diffusion-2-base
露骨な職場閲覧注意画像を削除した画像データセットで新規にトレーニングした画像解像度が512×512のモデルです。baseモデルと呼ばれる事があります。

(5)stabilityai/stable-diffusion-2
stable-diffusion-2-baseを元に更にトレーニングを追加した画像解像度が768×768のモデルです。vモデルと呼ばれる事もあります。一般的にstable diffusion 2.0と言えば、このモデルを指すと思われます。

私の知る限り、vモデル用の拡張はまだ出てきていない(11月29日追記:昨日の今日ですが既にvモデル対応版のDreamBoothが本日発表されています)ようですが、baseモデルは512 x 512なので、実は既存のstable diffusion 1.4やstable diffusion 1.5で使用できた様々な拡張が適用できて、例えば、DreamBoothもいけちゃいます。

って事で、例によって突貫作業ですが、stable diffusion 2.0にDreamBoothを適用してナウシカベンチマークして比較!

としたかったのですが、今のところの私は上手い事調整する事が出来ていません。

従来と同じような感覚でstable diffusion 2.0を調整すると以下のように非常に均一的な印象を受ける画像が出来てしまうのです。

Stable Diffusion 2.0のナウシカ

何故でしょう、よくよく見ると均一的と言うわけではありませんが、第一印象がとても均一的ですね。stable diffusion 2.0が生成するイラストのスタイルをあまり好まない人がいる理由も何となくわかります。

下段は上段より更に時間をかけて丁寧に調整した結果ですが、それでもやはり均一的な印象を受けます。

Stable Diffusion 1.5のナウシカ

stable diffusion 1.5のDreamBooth拡張の方がバリエーションに飛んでいて冒険活劇的な感じがして見てて楽しいのですよね。

冷静に考えると、両モデルとも同一プロンプトで顔のアップを描くように依頼しているのでstable diffusion 2.0の方が的確に指示に従ってくれています。stable diffusion 1.5は動きがあって面白いですが、指示に従っているとは言い難い。

また、stable diffusion 2.0で非常に綺麗なDreamBooth拡張モデルを生成している人も見かけたので、まだ私の試行錯誤が足りないだけだと思います。

過学習なのか学習が足りないのかを肌感覚で見極めるスキルがまだ身についておらず、無駄に時間がかかっています。

参考画像やプロンプトを工夫する事でもっと良いナウシカ専用モデルが出来ると思うので、引き続き試行錯誤していこうと思っています。

3.Stable Diffusion 2.0でDreamBoothを試す関連リンク

1)github.com
diffusers/examples/dreambooth/

タイトルとURLをコピーしました