stable diffusionに同じ絵を描いて貰うためにはどうすれば良いか？

１．stable diffusionに同じ絵を描いて貰うためにはどうすれば良いか？まとめ

・人工知能に画像生成して貰う際にはpromptに加えてseedが与えられている
・seedは生成する画像にランダム性を持たせるために使われる大きな数字
・同じモデルを使ってpromptとseedを固定すれば他のPCで画像を再現可能

２．Repeatable Seedsとは？

アイキャッチ画像はstable diffusion

2023年9月追記)使用しているツール、及びツールのVersionによってプロンプトの解釈方法が微妙に異なる場合があり、そういったケースでは同じシードでも生成されるイラストが異なってくる場合があります。

画像生成人工知能に絵を描いて貰う際には「どんな絵を描いて欲しいか？」を文章で指示する必要があり、この指示をprompt(プロンプト)と言います。

プロンプトの言い回しを工夫すると見栄えの良い画像が出来る事があるので、どんなプロンプトが有効なのかを皆が試行錯誤(これをプロンプトエンジニアリングと言います)しているのですが、実は人工知能に画像生成して貰う際には、もう一つ、裏で入力として与えられているものがあり、これが、seed(シード)です。

シードの実体は大きな数字です。生成する画像にランダム性を持たせるために使われます。逆に言えば、プロンプトとシードを固定すればランダム性は失われるため、実行するパソコンが異なっても同じモデル(今回の例だとCompVis/stable-diffusion-v1-4)を使っていればほぼ同じ画像を生成する事が出来ます。

DALL·E 2やMidjourneyなどでも生成した画像を元に似た画像を生成する機能がありますが、あれは、シードを固定して異なるプロンプトを与えているという事です。

数日前にstable diffusionでシードを明示的に指定する事が出来るColabが公開されました。(厳密にはstable diffusionと連携して動作するhuggingface/diffusers側の実装です。CompVis/stable-diffusion側の実装にはまだ取りこまれていないので自分のPCにCompVisの実装をcloneしている場合はまだ動かないかもしれません。関連リンクにhuggingface/diffusersのColabへのリンクを張っておきます)。

これにより、シードを固定したまま、プロンプトを変更する事が出来るようになり追加したプロンプトの効果が非常にわかりやすく整理できるようになりました。

以下、経験則によるものですが、私の実験結果をまとめます。

stable diffusionにおけるプロンプトの効果

（１）２種類のシードを使用

「68500306243898」と「3274144978572459」です。この２つはプロンプト実験中に比較的、顔が崩れにくかったため採用しています。

（２）ベースとなるプロンプト

以下の３つを使用しています。XXXXXの部分は後述の形容詞で差し替えます。

(2-1)「Image of Close-up of a XXXXX young woman’s face」
写真系の画像が生成される事を期待するプロンプトです。

(2-2)「Image of Close-up of a XXXXX girl’s face, by Studio Ghibli, Hayao Miyazaki, Nausicaa, Kushana, San, Sheeta, Clarisse」
ジブリ系のアニメ画像が生成される事を期待するプロンプトです。

(2-3)「Image of Close-up of a XXXXX girl’s face, trending on artstation”
美麗なイラスト系の画像が生成される事を期待するプロンプトです。

（３）形容詞の組み合わせ

（１）と（２）に対して「女性に対する形容詞として使われる事のある単語」を組み合わせます。

「何故、女性だけなのか？」と公平性やルッキズムの観点から突っ込みもあるかもしれませんが、本ページを作るために3000枚超の画像で試行錯誤しており、作業量的にそのような配慮をする余裕はございませんでした。しかし、評判が良いようだったら男性編もやるかもしれないのでTwitter等でご反応ください。

（４）形容詞以外の組み合わせ

（３）の結果に更に職業、装飾品、表情、場所などを追加します。

従って、（１）のシードのどちらかと（２）と（３）と（４）のプロンプト組み合わせを再現する事で、以下の画像は(huggingfaceの無料アカウント登録が必要ではありますが)全て関連リンクのColabで再現できますので余裕がある方は挑戦してみてください。

それではレッツスタート！

形容詞の効果

シードとベースプロンプトによって形容詞への敏感度が非常に異なってくる事がわかります。

シード	68500306243898			3274144978572459
形容詞	(2-1)	(2-2)	(2-3)	(2-1)	(2-2)	(2-3)
Breathtaking (息をのむような)
Elegant (エレガント)
Fantastic (ファンタスティック)
Good-looking (グッドルッキング)
Handsome (ハンサム)
Hot (ホット)
Kawaii (カワイイ)
Magnificent (壮麗な)
perfect (完璧な)
pretty (可愛い)
sexy (セクシー)

形容詞以外の効果

形容詞をBreathtakingに固定し、職業、装飾物、表情、場所などを更に組み合わせた結果が以下になります。同じプロンプトでも全体的に変わってしまうものや、ほとんど変化が見られないものもあります。

シード	68500306243898			3274144978572459
効果	(2-1)	(2-2)	(2-3)	(2-1)	(2-2)	(2-3)
actress (女優)
astronaut (宇宙飛行士)
singer (歌手)
knight (騎士)
princess (お姫様)
Glasses (眼鏡)
Sunglasses (サングラス)
Surgicalmask (医療用マスク)
flowersfield (お花畑)
snowcountry (雪国)
Smiling (笑顔)
England (英国)
France (フランス)
Japan (日本)
Ukraine (ウクライナ)
USA (アメリカ)