思わずクリックしたくなるようなアイキャッチ画像はイラスト生成AIで自動生成できるのか?

入門/解説

1.思わずクリックしたくなるようなアイキャッチ画像はイラスト生成AIで自動生成できるのか?

・人目を惹くアイキャッチ画像を集めてイラスト生成AIをカスタマイズし、クリックを誘う画像をAIで生成しようとする試みを見かけた
・カスタムモデルを使っても普通の画像も出来てしまう事があるので、まだプロンプトの与え方で同様な事が出来るレベルに留まっていた
・今回の画像はジョークレベルだがワンクリックで普通に使えるレベルのクリックベイト画像が生成出来るようになるのはそれほど遠くない未来

2.クリックを誘う画像を自動で生成する2つのアプローチ

アイキャッチ画像はchatGPT先生に相談しながら作成したプロンプトに手を加えてカスタムStable Diffusion先生に作って貰ったイラスト

youtubeなどから人目を惹くアイキャッチ画像を集めてきてイラスト生成AIをカスタマイズして、クリックを誘う画像、いわゆるクリックベイト(Clickbait)的な画像を集中的に生成する事ができるのか?と言う試みをやってる人を見かけたので、興味を持ったので評価してみました。

元モデルを作った方はあくまでジョークで作ったようで、拡散を望んでいるわけではなさそうなのでリンクはしないでおきます。

顔等の細部は敢えて雑なままにしてありますが、まずは以下をご覧ください。

イラスト生成AIで作ったクリックを誘う画像の例

イラスト生成AIでクリックを誘う画像を作るもう一つのアプローチ

どうでしょう?

どこかで見たことのあるような構図の良くあるクリックを誘う、クリックベイト(Clickbait)的な画像が表現できている気がしませんか?

目指した方向性としては、シンプルなテーマを与えると、それをクリックベイト的な構図にしてくれるジョークモデルだと思います。

イラスト生成AIのプロンプト解釈能力は、chatGPTのような対話型AIよりは劣るので、細かい構図やスタイルを指定をしても無視されてしまう事があります。そのため、ControlNetなどを使って細かい構図やスタイル指定する必要がありますが、それをせずとも常に特定の(クリックベイト)スタイルにしてくれるモデルがあれば画像生成作業が安定する側面はあると思います。

しかし、そもそも「クリックベイト」という目的は一致していても手段やモチーフが多様なテーマ群に一貫する汎用的なスタイルは果たして存在するのか?そして、AIはそのスタイルを学習する事ができているのか?と言う疑問はあって、今回のモデルを使っても普通に見える画像が出来てしまう事もあるので、プロンプトの与え方で同様な事が出来るのではないかという可能性を感じます。

ですので、一歩下がってもう一つの取り得るアプローチを考えてみると「chatGPTなどの対話型AIに主題と実現したい画像(クリックベイトスタイル)を伝え、その実現方法を一緒に考えてもらい、Stable Diffusion用にわかりやすくかみ砕いた表現にしたプロンプトを作って貰う」事だと思います。

実は、今回のアイキャッチ画像は後者のアプローチで作ったもので、やった事は以下です。

まず、スタジオジブリの仮想新作映画について考えます。もののけ姫のような和風ファンタジーものにする事にし、その映画のタイトル、キャッチコピー、ストーリーの概略をchatGPTと一緒に考えます。

タイトル: 「遥かなる山の魔法」

キャッチコピー:
「遥かなる山の魔法、解き放つ勇気と絆の物語」

ストーリーの概略:
遥かなる山の魔法の世界では、神秘的な力が広がっていた。ある日、主人公の少年・タケルは偶然、不思議な剣を手に入れる。この剣には、古来より伝わる力が秘められていることを知る。少年は、剣の力の秘密を解き明かすため、遥かなる山へと冒険を始める・・・。

で、このストーリーボードを元に画像の構成、要素、スタイル、目を引くための工夫を考え、最終的に画像化しています。

 

当初は「クリックを誘う画像の作成」が目的だったのですが、やってるうちに楽しくなってきてしまったのでだいぶ余計な裏設定などを考えた感は否めませんが、「この画像は何だろう?」と興味を持ってもらえるような画像には仕上がっているのかな、と思います。

ここまで書いていて改めて思ったのですが、Webbigdataの通常のアイキャッチ画像も内容と乖離しているように見えてクリックベイトに思える人もいるかもしれませんが、内容に関連付けようと努力はしており、カテゴリとしては「ファンアート」と思っています。

ごく一部の人にはクリックベイト効果はあるかもしれませんが、過去三か月にナウシカという検索キーワードで流入してきた人は3人しかいないので、流入効果はほぼゼロです。AIガチ勢にとっても、アイキャッチ画像と本文の内容の落差にびっくりする事はあるでしょうが、肯定的に感じてくれる人と否定的に感じる人の割合はよくわからないので、現在の方向性を続けるべきなのかは微妙な感じもしていますが、一つ確実に言える事は、描いてて私が楽しいです。

それゆえ、Webbigdataの画像は「ファンアート」と思っています。

まとめ

クリックを誘う画像のような特定の用途向けの画像を生成するアプローチには「特定のイラストに特化した特化型AIを使うアプローチ」と「人間と対話可能なAIを経由して、汎用的なイラストを作成可能な汎用型AIを操作するアプローチ」の2つがあります。

後者は実はイラストの世界だけではなくて「人間と対話可能なAIを通じて他のツール(他のAIを含む)を操作するアプローチ」であり、ToolformerやHuggingGPTなどを皮切りに、様々なアイディアが発表されており、今後、大流行しそうな一つの有望な方向性です。

今回の画像は、あくまでジョークレベルですが、chatGPTのプラグインなどで、ワンクリックで普通に使えるレベルのクリックベイト画像が生成出来るようになるのはそれほど遠くない未来と考えられます。

そうなった時に世の中がどのように変化していき、どうやって自分が適応していくかを今から考えて動き出す事が大切と思います。

3.思わずクリックしたくなるようなアイキャッチ画像はイラスト生成AIで自動生成できるのか?関連リンク

1)arxiv.org
Toolformer: Language Models Can Teach Themselves to Use Tools
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

2)github.com
conceptofmind / toolformer
lucidrains / toolformer-pytorch
microsoft / JARVIS

タイトルとURLをコピーしました