Stable Diffusionで自分の好きなキャラクターにハロウィンコスプレをしてもらう事も可能

１．Stable Diffusionで自分の好きなキャラクターにハロウィンコスプレをしてもらう事も可能まとめ

・世の中はハロウィン！仮装！コスプレ！乗るしかない、このビッグウェーブに！
・画像生成人工知能で風の谷のナウシカに人気作品のコスプレをしてもらった
・Stable Diffusionを微調整すると再現性が更に向上する余地がありそう

２．Stable Diffusionの微調整とは？

アイキャッチ画像はstable diffusionの生成でハロウィンで魔女のコスプレをしているナウシカとハロウィンでチェンソーマンのマキマさんのコスプレをしているナウシカ

2023年6月追記)八か月後にはもの凄いハイレベルのコスプレが出来るようになっています。「2023年6月時点の技術でイラスト生成AIで二次元キャラクターのコスプレ画像を作成する」。本記事を執筆した頃に比べると微調整手法も増えてだいぶ気軽に実行できるようになりました。

世の中はハロウィン！

ハロウィンと言えば仮装！コスプレ！乗るしかない、このビッグウェーブに！

と言う事でハロウィンを大義名分に人工知能を使ってスタジオジブリの風の谷のナウシカに他作品のコスプレをして頂きました。元の作品とだいぶかけ離れているイラストもありますが、お祭りと言う事で笑ってご容赦ください。

風の谷のナウシカ(ハロウィンコスプレ)

ハロウィンをカボチャのコスプレでお祝いしている風の谷のナウシカです。(タップで拡大します)

機動戦士ガンダム

ハロウィンをジオン軍、もしくは地球連邦軍の軍服を着た人、もしくはガンダム合体したコスプレでお祝いしている風の谷のナウシカです。

チェンソーマン

ハロウィンをチェンソーマンのマキマのコスプレでお祝いしている風の谷のナウシカです。

鬼滅の刃

ハロウィンを鬼滅の刃の鬼滅隊服及び蟲柱の胡蝶しのぶ(雰囲気)コスプレでお祝いしている風の谷のナウシカです。

Re:ゼロから始める異世界生活

ハロウィンをRe:ゼロから始める異世界生活のロズワール家の使用人ラム(雰囲気)コスプレでお祝いしている風の谷のナウシカです。

呪術廻戦

ハロウィンを呪術廻戦の釘崎野薔薇のコスプレでお祝いしている風の谷のナウシカです。

新世紀エヴァンゲリオン

ハロウィンを新世紀エヴァンゲリオンのプラグスーツを着たセカンドチルドレンのコスプレでお祝いしている風の谷のナウシカです。

コスプレが難しいケースと勢いで割といけるケース

如何でしょう？

個人的にはあまり出来が良いとは言えないレベルのコスプレ画像もチラホラあると感じていて、お気に召さなかったファンの方はご容赦ください！

実はここまでのイラストは前回の「Waifu Diffusionで自分の好きなキャラクターに好みの服を着てもらう事が可能」で紹介した手法で生成した画像です。

つまり、ナウシカと言う概念はDreamBoothで取り込んで、取りこんだ概念に対してプロンプトで属性指定がやりやすいWaifu Diffusion 1.3で服や装飾品をプロンプト指定して、雰囲気を寄せてそれっぽく仕上げています。

そのため、スムーズにいくケースと難しいケースがわかれました。

比較的勢いでコスプレできたケース

・ハロウィン
細かく指定をしなくてもカボチャがあればそれっぽくなります

・チェンソーマン(マキマ)
細かく指定をしなくてもスーツと三つ編みでそれっぽくなります

・新世紀エヴァンゲリオン(プラグスーツを着たセカンドチルドレン)
細かく指定をしなくてもプラグスーツっぽければそれっぽくなります

・呪術廻戦(釘崎野薔薇)
金槌と五寸釘を持たせるのが難しいですが、学生服と元キャラの勢いで割とそれっぽくなります。

ナウシカに寄せるのが難しいケース

・Re:ゼロから始める異世界生活(ロズワール家の使用人ラム)
(イラストの世界では)メイド服と言う概念が多様且つ非常に強力なためか、ナウシカの概念が吸収されがちです。

・ガンダム(ジオン軍、もしくは地球連邦軍の制服を着た人)
制服(uniform)と言う概念が多様且つ強力なため軍服(military uniform)と言う概念が上手く指定できず、且つガンダムと言う概念が多様且つ非常に強力なためナウシカの概念が吸収されがちです。

元キャラクターの雰囲気に寄せるのが難しいケース

・鬼滅の刃(胡蝶しのぶ)
制服(uniform)と言う概念が多様且つ強力なため鬼殺隊隊服(Demon Slayer uniform)と言う概念が上手く指定できず、且つ蟲柱は独自の羽織を着ているため概念の指定が更にとても難しいです。

現在挑戦中の手法

実のところ、人工知能を使って品質の高いファンアートを生成しようとするならば、今回のようなモデルの微調整(Fine Tune)を模索する手法は必ずしもベストではない可能性があります。

非常に高品質なイラストを人工知能と通常のツールを使い分けながら生成する手法が段々と洗練され始めているので、イラストの品質を追求するならば、慣れたツールと人工知能の組み合わせ方を模索した方が良い結果が得られるのではないかと思います。

既存の画像をベースにバリエーションを生成していく手法(img2img)や、既存画像の一部を指定して人工知能で書き換える手法(in-painting)などを上手く組み合わせて大変高品質なイラストを生成しておられる方はおられます。

今回のハロウィン祭りに間に合わせる事が出来なかった挑戦中の手法は「Stable Diffusion 1.5を画像とテキストを使って直接微調整する」であって、相当なリサーチ力/エンジニア魂/設備投資が求められるディープな世界なので、必ずしもベストな手法ではないと思います。

しかしながら、組み合わせるのが難しい概念同士を組み合わせる事が徐々にでき始めており、今回のWaifu Diffusion 1.3+DreamBoothで突破できなかった壁ももうしばらく試行錯誤すれば突破できそうな手ごたえは感じています。