人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か？(latent diffusion編)

１．人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か？(latent diffusion編)まとめ

・人工知能に指示を与える際はなるべく具体的な描写が望ましいが長文すぎると後半は無視される
・通常の言い回しよりインターネット上で多様されている言い回しを取りこんでみる事もあり
・モデルによっては多言語対応している場合もあるが英語で入力する方がトラブルが少ない

２．プロンプトエンジニアリングとは？

アイキャッチ画像はlatent diffusion

どのような言葉で人工知能に指示をすれば自分がやって欲しい出力が得られるか？を試行錯誤する事を「プロンプトエンジニアリング(Prompt Engineering)」と言います。

プロンプトと言う言葉はあまりなじみがありませんが「行動を促すもの」と言う意味があるので、日本語に解釈すれば「(人工知能に希望する)行動を促す工学技術」となります。

この問題は意外に身近でGoogle アシスタント(これも人工知能)と会話する際にも「ここから渋谷まで何時間かかる？」と聞くと「車で国道何号を～で何時間」と答えてくると思いますが「ここから渋谷駅まで電車で何時間かかる？」と聞くと電車の乗り換え時間を教えてくれる等、言い回しを工夫する事で人工知能をより便利に使いこなせるようになります。

人工知能で画像を生成させる際も、望ましい指示方法と誤解されやすい指示方法は徐々にわかってきていますが、工夫の余地はまだまだあるようで、以下に現時点で良く言われる事とその実例をまとめておきます。

１．文章は英語で入力する

モデルによっては多言語対応している場合もありますが、英語が無難です。これは学習用データがインターネットから収集されている場合が多く、且つ、インターネット上で最もシェアが多い言語が英語であるからです。更に言えば、フォーマルな英語よりインターネット上で使用されているくだけた表現の方が伝わりやすい傾向があるとも言われています。

２．なるべく具体的な指示をする

例えば「未来の～」よりは「100年後の～」や「沢山の～」よりは「10体の～」の方が良いと言われています。ただし、対応可能な入力文字数はモデルによって異なるため細かく指示しすぎて長文すぎると指示が無視される恐れもあります。

３．出力スタイルを指定する

イラスト(illustration)
写真画質(photorealistic)
ハイデフ(high definition)
デジタルアート(digital art)
浮世絵(ukiyoe art)

４．作風を指定する

ゴッホ風に
ピカソ風に
ディズニー風に

さて、実例ですが、文章から画像を生成する人工知能の一覧を見ればわかるように、同じ言葉であっても人工知能によって出力する画像は異なります。

今回私が使用する人工知能であるlatent diffusionは個人レベルで動かせるものとしては性能が良いのですが、「Nausicaä(スタジオジブリの名作「風の谷のナウシカ」のヒロイン)」という単語をおそらく知りません。しかし、「風の谷のナウシカ」を描いて欲しいのです。

従って、ルール２「なるべく具体的な指示をする」に基づいて「赤毛で青い服を着ている人」ではどうにかならないか！？というチャレンジです。

なるべく具体的な指示で人工知能に絵を描いてもらう実例

「A red haired girl in blue smiles in a fungus forest, oil on canvas(赤い髪の青い少女が菌類の森で微笑んでいます。キャンパスの油絵)」

うーん、私の指示通りではあり、本来は100点満点ではありますが、ダメダメ全然だめナウシカではない。右から２列目の上から３列目は服装がそれっぽいけど、表情が危ない。

次、ナウシカはダメでもスタジオジブリなら知ってるかな、と思い、次は「Studio Ghibli style painting of a girl with red hair, dressed in blue, smiling in a golden meadow.(赤い髪で、青い服、金色の草原で微笑む少女をスタジオジブリ風に描いた作品)」

うむ、味のある絵だけれども私の欲しているナウシカとはほど遠い。ダメだ、スタジオジブリも認識してくれてない。うーん、それでは、日本のアニメーションと言う事でJapanimationという単語ではどうだろう？

「Japanimation style painting of a girl with red hair wearing blue clothes and riding a glider.(赤い髪の女の子が青い服を着てグライダーに乗る姿をジャパニメーション風に描いたもの)」

うむ、クールジャパン破れたり。

では、もっとメジャーそうなディズニー風とかなら、認識してくれるのかしらん？

「Disney movie poster showing a girl with red hair wearing blue and riding a bird like horse.(青い服を着た赤毛の女の子と鳥のような馬に乗ったディズニー映画のポスター)」

ディズニーっぽくはある。しかし、ナウシカからは離れた。かなり離れた。

では視点を変えてカードゲーム風、と言う感じのアプローチではどうだろう？カードゲームって美麗なイラストが多いので、綺麗にまとめてくれないだろうか？

MTG card illustration of a girl with red hair wearing blue and holding a sword.(赤い髪の女の子が青い服を着て、剣を持っているMTGカードのイラスト)

ダメだ、カードゲームはカードゲームでも、たぶん、お子様用のイラストっぽい感じになってしまった。

一旦、人物は諦めて王蟲とかどうだろう？

「Animation of 10 giant sandworms sprinting with angry red eyes through a fungus forest(10匹の巨大な砂虫が怒った赤い目で菌類の森を駆け抜けるアニメーション)」

アニメーションと指定したのに写真系。王蟲は無理だろうから映画「砂の惑星」からイメージを引っ張ってきて欲しかったのでsandwormsとしたけれどもダメだったか。

じゃあ、もう巨神兵のタペストリー的なのは？

「Tapestry of a giant destroying a city by emitting destructive rays from its mouth.(巨人が都市を破壊し、その口から破壊的な放射線を放射するタペストリー)」

ギリギリ、闇市で売ってた巨神兵のタペストリーと言い張れば行けそうな物も含まれている。

しかし、やっぱりナウシカが良い。人物を詳細に書くのは難しそうだからメーヴェに乗ってるシーンとかどうだろうか？メーヴェはわからないだろうからグライダーでどうだろう？

「Watercolor of a woman with red hair, dressed in blue, wearing a helmet, flying above the clouds in a white glider.(青い服を着た赤い髪の女性がヘルメットをかぶり、白いグライダーで雲の上を飛んでいる様子を水彩画で表現)」

ダメだ、長文すぎるのかな、服の色を間違え始めた。

もう少し短くしてみよう

「Oil painting of a red haired woman in blue flying in a white hang glider.(白いハンググライダーで飛行する青い服の赤毛の女性を描いた油絵)」

グライダーと言う概念の理解ができていない？そのため人物が主体になってしまうのでナウシカではないことが明確になってしまう。

こうなったらポスター風、とかどうだろう？

Poster for the animated film Nausicaa of the Valley of the Wind.(アニメ映画「風の谷のナウシカ」ポスター)

お、「文字が入ってくる＋人物がはっきり映っていない」の条件を満たすと、80年代にアメリカで発売されたナウシカのボードゲームのイラストとか言い張れそうな画像は出来た！

人工知能で生成した画像はどこまで実務に使えるか？

実は他にも様々な試行錯誤はやったのですがこれ以上のものは出来なかったです。

結論として、自分が明確にイメージできている希望する画像をはっきりと人工知能に描いてもらうのは現時点の私の利用環境ではまだ難しい感触です。

インターネット上で人工知能が生成した画像として話題になる綺麗な画像も「人間が細かい指示を与えた画像」ではなく、上記のような「大まかな指示を元に作成された画像が思った以上にイイ感じだった」というレベルでの紹介が多く思います。

私が生成して貰った上記の画像群もナウシカと見做す事は出来ませんが、絵画としてはセンスがある絵と解釈する余地はあって品質が悪いわけではないので美術品的な位置づけであれば十分鑑賞に堪えます。

しかし、これが実務的な用途で使えるかと言うとまだ難しい所があります。

本ブログではアイキャッチ画像にフリー素材サイトの画像を使用する事が多いです。適切な画像を選ぶのに苦労する事があるので、人工知能にプロンプトを与えて自由自在に画像が生成できれば時間短縮になるのかな、と思っていたのですが、思ったような画像が一発で作れることはまずなく、結局、フリー素材サイトから選択した画像を使うケースが多々あります。

権利的な問題もまだグレーゾーンです。

アウトプットされた画像をどう人間が解釈／利用するかはやはり人間次第のところがあります。いくら美麗な画像でも同じパターンであればいずれ飽きられてしまうでしょう。発表時には相当騒がれたDeepDreamが取り上げられる事はほぼなくなりました。

そのため、即イラストレーター不要論とか人工知能万能論は行き過ぎかな、とは思います。とは言え、従来は10人でやっていた作業が7人で出来るようになる、等の省力化には繋がるでしょう。

「人工知能が仕事を奪う論」は極端すぎるという主張は一理あるかもしれませんが「ロボット／人工知能／自動化／省力化によって従来は人間がやっていた仕事の有り様が変っていく事」は起こるか起こらないではなく、イラスト／デザイン以外でも様々な業種で既に起こっている事実であり、人生設計の際は考えていく必要がある事柄だな、と思います。