1.人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か(DALL·E 2編)?
・DALL·E 2のベータテストの敷居はかなり下げられていて登録すると数日で招待される
・初月は50クレジット、その後は毎月15クレジットを無料で補充されるので無料利用可能
・DALL·E 2レベルでも明確にイメージできている希望する画像を描いてもらうのは難しい
2.DALL·E 2のプロンプトの実例
文章の指示を元に画像を生成する人工知能のリストを作っていた時に、DALL·E 2(ダリーツー)のベータテスト参加の敷居がかなり下げられていた事に気づきました。
7月20日より順次100万人の希望者を招待予定、との事で登録してみたら予想外に早く招待されたのでlatent diffusionでやってみた「人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か?」と同じ入力で画像を生成してみる事にしました。
なお、現時点でのDALL·E 2の利用条件/価格は以下です。
・初月は50クレジット、その後は毎月15クレジットを無料で補充
・無料クレジットの有効期間は一か月、翌月に繰り越しは不可
・115クレジットを約2,000円(US15ドル)で購入可能。有料クレジットの有効期限は購入日から12ヶ月
・無料クレジットと有料クレジットのどちらで作成された画像であっても、同じ権利(商用利用を含む)を得ることが可能
・画像生成、バリエーション生成など、正常に処理された1リクエストに対して1クレジットを消費
ちなみにDALL·E 2も「Nausicaä of the Valley of the Wind(風の谷のナウシカの英語版タイトル)」そのものずばりを入力すると以下のようなリアル系写真画質の画像を生成するので「ナウシカ描いて!」と直接指定する事は出来ません。
それでは、レッツスタート!
なるべく具体的な指示で人工知能に絵を描いてもらう実例
「A red haired girl in blue smiles in a fungus forest, oil on canvas(赤い髪の青い少女が菌類の森で微笑んでいます。キャンパスの油絵)」
うむ、非常に真に迫った非常に高品質な油絵、そして菌類を無視しなかったのは偉い、見事だ素晴らしい!しかし、私の描いて欲しいものではない。
ちなみにこのくらいの長さの文章だとDALL·E 2側で「長く、具体的な説明が効果的な傾向があります」と表示が出るのでもしかしたらもっと長文の指示も行けるのかもしれない。
次、もう少し具体的にスタジオジブリ風とスタイルを指定するとどうか?
「Studio Ghibli style painting of a girl with red hair, dressed in blue, smiling in a golden meadow.(赤い髪で、青い服、金色の草原で微笑む少女をスタジオジブリ風に描いた作品)」
ちっがーう!全然ちっがーう!
そもそも私には4枚とも違うスタイルに見える。
スタジオジブリスタイルをどっから学んだ?ハヤオ顔で書いて欲しかったんだ!
それでは日本のアニメーション、Japanimation風にしてみてくださーい
「Japanimation style painting of a girl with red hair wearing blue clothes and riding a glider.(赤い髪の女の子が青い服を着てグライダーに乗る姿をジャパニメーション風に描いたもの)」
左端、浮遊感が一切ないのでシュールだな。全体的に統一感があまり感じられないが、左から2つ目の目つきの悪さは奈良 美智さんのキャラクターのようにも見える。
次、絶対知ってるだろうと思われるディズニー風の指定はどうか?
「Disney movie poster showing a girl with red hair wearing blue and riding a bird like horse.(青い服を着た赤毛の女の子と鳥のような馬に乗ったディズニー映画のポスター)」
左から2番目、トリウマを上手く表現出来ているところは流石!
しかし、ディズニー風かっていうと微妙。指定していない文字が入り込むのも謎
それでは、美麗な感じにまとめてくれる事にワンチャンかけてカードゲーム風を指定
MTG card illustration of a girl with red hair wearing blue and holding a sword.(赤い髪の女の子が青い服を着て、剣を持っているMTGカードのイラスト)
お、カードゲーム風かっていうとかなり微妙だけれども、「初心者だけど、頑張ってナウシカ描いてみました!」と言い張れば、通りそうなレベルではある。採用!
「Animation of 10 giant sandworms sprinting with angry red eyes through a fungus forest(10匹の巨大な砂虫が怒った赤い目で菌類の森を駆け抜けるアニメーション)」
左から2番目、湯気出して怒っている感を出しているのは素敵で凄い!しかし、私が描いてほしかったものではない。その他、何を描いてくれているのかよくわからない解釈が難しい。プロンプトに問題ありか?
次、巨神兵のタペストリー的なのはどうか?
「Tapestry of a giant destroying a city by emitting destructive rays from its mouth.(巨人が都市を破壊し、その口から破壊的な放射線を放射するタペストリー)」
うん?タペストリーの部分は無視された?「壁にかかっている」等の表現を追加すべきか?
では、メーヴェに乗っている場面を描いて貰う事は可能かな?
「Watercolor of a woman with red hair, dressed in blue, wearing a helmet, flying above the clouds in a white glider.(青い服を着た赤い髪の女性がヘルメットをかぶり、白いグライダーで雲の上を飛んでいる様子を水彩画で表現)」
プロンプトの指示を理解して適切に従ってくれたために逆に、風を操るナウシカっぽさがなくなり、風に流されるまま感が出てしまっている。
「Oil painting of a red haired woman in blue flying in a white hang glider.(白いハンググライダーで飛行する青い服の赤毛の女性を描いた油絵)」
これも同様。読解力が高いモデルだと似たもので代替する手法では違いが際立つようになってしまうので「メーヴェと言う架空の概念をどのようにして具体的に伝えるか?」という別の課題が出てくる。
では、ポスター風。
Poster for the animated film Nausicaa of the Valley of the Wind.(アニメ映画「風の谷のナウシカ」ポスター)
うーん、ポスタースタイルだと謎文字が入ってきてしまうのは同様ですね。
最後、DALL·E 2は画像をアップロードするとその画像のバリエーションを作ってくれるという機能もあります。
以下が結果
ちゃうねん!
何でテトをピカチュウにしてんねん!後、確かに元絵も少し目と目の間が広めだけれども、そういう特徴は拾わなくてええねん!名場面が台無しやん!
結論
今回は無料枠で行っていますが、仮に有料枠だったとしたら、ここまでの作業でお値段200円ちょっとだと思います。
私のやり方だとディズニー風やジブリ風の画像は上手く出力できませんでしたが、海外のセレブなどを固有名詞で指定するとかなり雰囲気が似た画像を出力できるようなので、指定の仕方次第ではもう少し上手く出力できる可能性はあります。
画像生成人工知能の使い方はこれから洗練されていくのだと思いますが「望んだ画像を出力させる」と言うのはまだ難しい事なんだな、と現時点では感じています。
3.人工知能にスタジオジブリの風の谷のナウシカを描いてもらう事は可能か?(DALL·E 2編)関連リンク
1)labs.openai.com
DALL·E2のベータ登録フォーム