1.Imagic:写真内の人物の表情をプロンプトで直接編集な人工知能まとめ
・stable diffusionを流用して画像を自由に編集できるImagicが公開されている
・表情や構成など写真内の物体をプロンプトを使って自由に編集可能な高性能
・微調整に時間がかかり専用モデルを都度生成しなければならない事が欠点
2.Imagicとは?
Imagicを最初に知った時は、写真内に写っている物体をプロンプトを使って自由に編集できるなんて、これは凄いぞヤバイぞ!と思ったのですが、自分で実際に評価してみると、そんなに他で使っている事を見かけない理由もちょっとわかったのですが、まずは実際に作成した画像から以下どうぞ。
今回は、AIコミュニティ界隈では非常に尊敬されている反面、割と気軽にフリー素材扱いをされる事も多いディープラーニングの三賢人の画像をお借りして、ヒントン先生から。
プロンプト「満面の笑みを浮かべるGeoffrey Hintonの写真(A photo of Geoffrey Hinton smiling with a big grin.)」これは、元論文内で例としてあげられていたオバマ大統領の表情を変更しているサンプル内で使われているプロンプトの氏名をそのままヒントン先生に差し替えた版です。
上記画像はアイキャッチ画像に使用したものと異なるものですが、実は2つの生成画像がどちらもプロンプト内で指示してないのに服装が変ってしまっている事に気づいたでしょうか?また、私の秘蔵のヒントン先生画像フォルダから発掘した以下の本物と比べるとやや違和感がある(若返ってる?)笑顔です。
笑顔のヒントン先生(本物1)
笑顔のヒントン先生(本物2)
笑顔のヒントン先生(本物3)
プロンプト「親指を立てるYann LeCun(Yann LeCun giving a thumbs up.)」
Yann LeCun giving a thumbs up.
Imagicによる編集画像
上記は十数回失敗(9割以上親指が映ってない画像になる)してようやくできた一枚です。表情だけではなく手も描画できるとは非常な高性能ですが、しかし、微調整元であるStable Diffusionが手のひらの表現が苦手な事をそのまま受け継いでしまっており、ちょっと小指部分が変ですね。
次、Yoshua Bengio先生。
プロンプト「アロハシャツにサングラスをかけたYoshua Bengio(Yoshua Bengio is wearing an aloha shirt and sunglasses.)」
こちらも数十回失敗した後の一枚です。「アロハ」と「サングラス」の部分が伝わりませんでしたが、メガネはいけてますね。シャツ化は指示がなくても変わるのでどこまで指示が伝わっているのかわからないです。
そして当然のごとく、ナウシカ
元画像
プロンプト「ナウシカの笑顔の絵(drawing of nausicaa smiling.)」
おっおー、と言う感じですが、髪の色とか変っちゃうケースあるのですよね。そして二次元画像だとヒントン先生の際に感じた違和感がもっとはっきりわかりますね。線が太くなってしまう影響で絵柄の印象が大分変ってしまいます。
それと、微調整に時間がかかる重たいモデルであると言う事も気づいたことです。
上記の4パターンの画像を生成するためにそれぞれ専用のモデルを生成しています。1つのモデルを作成してプロンプトで使いまわすと言う事は出来なくて、画像とテキストを与えて、その変換専用のモデルを生成するタイプの微調整なのです。
Colabの無料版のT4で動かせるようにした版を公開してくれている方がおられるので末尾にリンク張っておきますが、無料版Colabだと1モデルあたり20~30分かかり、数モデル生成すると下手をすると使い過ぎメッセージが出てそれ以上GPUを使えなくなる、そこそこ重い微調整です。
なので技術的には凄いのですが、使い勝手や操作のしやすさと言う意味では編集して欲しい部分だけを人間が指定できるIn-Paintingにやや軍配が上がるのかな、と感じました。
3.Imagic:写真内の人物の表情をプロンプトで直接編集な人工知能関連リンク
1)arxiv.org
Imagic: Text-Based Real Image Editing with Diffusion Models
2)github.com
ShivamShrirao / diffusers (無料版ColabのImagic)