DALL·E 2:言葉による指示を理解してリアルな画像や芸術作品を作り出す人工知能

１．DALL·E 2:言葉による指示を理解してリアルな画像や芸術作品を作り出す人工知能まとめ

・昨年発表されたDALL·E言語解釈能力と生成画像の品質を更に高めたDALL·E 2が発表された
・DALL·Eの画像は少し稚拙な画像もあったがDALL·E 2は人が書いたものと見分けがつかない
・画像内に要素を追加/削除したり特定の画像を元にその派生画像を作り出す事もできる

２．DALL·E 2とは？

以下、openai.comより「DALL·E 2」の意訳です。元記事は2022年4月6日、OpenAIによる投稿です。

著名なAI アーティストに「AIアートが死んだ日かもしれない」と呟やかせた、言葉の指示に基づいて衝撃的なレベルの高品質画像を生成できる人工知能「DALL·E 2」の紹介です。

昨年発表されたDALL·EもGPT-3を画像分野に応用したものなので、既に相当な実力を見せていましたが、画像の品質にはまだ稚拙に感じる部分がありました。

今回のDALL·E 2は非常に複雑な自然言語表現を元に思わず言葉を失うレベルの高品質なイラスト、アートを写真品質で的確に生成している事がみてとれます。一応、英訳はしましたが文字も少ないし、元ページの方が操作可能なデモが設置されているので、元ページにご自身で行って見てみる事をお勧めします。

なお、DALL·E 2の論文にはモデルの再現に必要な情報が十分に記述されておらず、これでは「研究」ではなく「広告」だという批判も見かけたことを付け加えておきます。

2022年8月14日追記)DALL·E 2で作成した画像の実例を掲載しました
2023年1月追記)DALL·E 2をオープンソースとして再実装したkarloの評価記事を掲載しました。

DALL·E 2は、文章からオリジナルでリアルな画像やアートを作成することができます。以下のように概念、属性、スタイルを組み合わせることができます。

「An astronaut」「riding a horse」「in a photorealistic style」
(「宇宙飛行士」「馬に乗る」「写真風に」)

「Teddy bears」「mixing sparkling chemicals as mad scientists」「as a 1990s Saturday morning cartoon」
(「テディベア」「マッドサイエンティストのように泡立つ薬剤を混ぜる」「1990年代の土曜日の朝のアニメ風で」)

「A bowl of soup」「that is a portal to another dimension」「as digital art」
「一杯のスープ」「異次元への入り口である」「デジタルアートとして」

DALL·E 2は、言語で指示を与える事で、既存の画像にリアルな編集を加えることができます。影や反射、質感を考慮しながら、要素を追加したり削除したりすることができます。

元画像

パターン１

パターン２

パターン３

DALL·E 2は、画像を取り込んで、オリジナルにインスパイアされたさまざまなバリエーションを作ることができます。

DALL·E 2は画像とそれを表現するためのテキストの関係性を学習しています。ランダムな画素のパターンから始まり、特定のイメージを認識すると、そのイメージに向かって徐々にパターンを変化させる「拡散(diffusion)」と呼ばれる処理をしています。

2021年1月、OpenAIはDALL·Eを発表しました。その1年後、最新システム「DALL·E 2」は、解像度を4倍に高め、よりリアルで正確な映像を生成しています。

各モデルの1,000枚の画像を比較してもらったところ、DALL·E 2はDALL·E 1よりも「言語で与えた指示に適切か？」では71.7%、「写真画質」の点では88.8%の人に好まれました。

DALL·E 2は研究段階のプロジェクトであり、現在OpenAI APIで利用できるようにはなっていません。責任を持ってAIを開発・導入する取り組みの一環として、DALL·Eの限界と能力を一部のユーザーグループと研究しています。私たちがすでに開発した安全性の緩和措置は以下の通りです。

有害な画像を生成する事を防止する
DALL·E 2が暴力的、憎悪的、アダルトな画像を生成することを制限しています。学習データから最も露骨なコンテンツを削除することで、DALL·E 2がこれらの概念に触れることを最小限に抑えました。また、公人を含む実在の人物の顔を写実的に生成しないよう、高度な技術を駆使しています。

悪用を防止する
OpenAIのコンテンツポリシーでは、ユーザーが暴力的、成人向け、政治的なコンテンツを生成することを禁止しています。また、私たちのフィルターが、ポリシーに違反する可能性のあるテキストプロンプトや画像のアップロードを特定した場合、画像を生成することはありません。また、自動的・人的な監視システムにより、悪用されないようガードしています。

学習による段階的な展開
私たちは外部の専門家と協力し、技術の能力と限界を知るために、信頼できる限られたユーザーに対してDALL·E 2を試用しています。私たちは、安全なシステムを学び、繰り返し改善しながら、時間をかけてより多くの人をプレビューに招待していく予定です。

私たちの願いは、『DALL·E 2』が人々の創造的な表現を後押しすることです。また、DALL-E 2は、高度なAIシステムがどのように私たちの世界を見て理解しているかを理解するのに役立ちます。これは、人類に利益をもたらすAIを作るという私たちのミッションにとって非常に重要なことです。