DALL·E:文章から画像を作成(2/3)

モデル

1.DALL·E:文章から画像を作成(2/3)まとめ

・DALL·Eでは、画像に対する視点や3Dスタイル、光学的歪みも制御できる
・「極端に拡大した視点」や「X線」スタイルで断面図や接写構図の画像も可能
・入力文に指定されていない撮影状況の詳細を推測したり合成する事も可能

2.DALL·Eの機能

以下、openai.comより「DALL·E: Creating Images from Text」の意訳です。元記事の投稿は2021年1月5日、Aditya Rameshさん、Mikhail Pavlovさん、Gabriel Gohさん、Scott Grayさん、Mark Chenさん、Rewon Childさん、Vedant Misraさん、Pamela Mishkinさん、Gretchen  Kruegerさん、Sandhini Agarwalさん、Ilya Sutskeverさん、Justin Jay Wangさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Erik Mclean on UnsplashにWebBigDataがダリの顔を合成

視点の移動と三次元スタイルの視覚化
DALL·Eでは、画像に対する視点や3Dスタイルも制御できることがわかりました。

訳注:以下、スライドは全て一部画像の抜粋です。元ページではもっと様々なパターンを選択できますので興味を持たれた方は是非下部リンクよりご覧ください。

(スマートフォンの場合はフリックで左右にスライドできます。)

山に座っているワシの背面図
野原に座っているカピバラの低ポリゴンメッシュ
previous arrow
next arrow
 
山に座っているワシの背面図
野原に座っているカピバラの低ポリゴンメッシュ
previous arrow
next arrow

これを更に確かめるため、等間隔で一連の角度から有名な人物の頭を繰り返し描くDALL·Eの能力をテストし、頭部を回転させる滑らかなアニメーションを復元できることを確認しました。

入力画像
ホメロスの胸像の写真
(a photograph of a bust of homer)

生成画像

DALL·Eは、「魚眼レンズ」や「球面パノラマ」で見られるようないくつかのタイプの光学的歪みをシーンに適用できるように見えます。これにより、反射を生成する能力を探求するようになりました。

入力画像
鏡に映った自分の姿を見ている真っ白な立方体
(a plain white cube looking at its own reflection in a mirror)

生成画像

内部および外部構造の視覚化
「極端に拡大した視点」と「X線」スタイルのサンプルから、内部構造の断面図をレンダリングしたり、外部構造を接写してレンダリングするDALL・Eの機能を更に調査しました。

(スマートフォンの場合はフリックで左右にスライドできます)

クルミの断面図
脳サンゴの接写
previous arrow
next arrow
 
クルミの断面図
脳サンゴの接写
previous arrow
next arrow

撮影状況の詳細を推測する
テキストを元に画像を作成するタスクは完璧には指示されません。通常、単一の説明文と画像は一対一の対応になりません。もっともらしい画像のパターンは無限大に存在します。

例えば、「日の出の畑に座っているカピバラの絵」という説明文を考えてみましょう。カピバラの向きによっては、影を描く必要があるかもしれませんが、影の詳細については明示的に言及されていません。スタイル、設定、時間の変更という3つのケースで、仕様記述不足を解決するDALL·Eの機能を調査しました。様々な状況で同じ物体を描画する事、特定の文章が書かれた物体の画像を生成する事、などです。

(スマートフォンの場合はフリックで左右にスライドできます)

様々なスタイルで書かれた日の出の畑に座っているカピバラの絵1
様々なスタイルで書かれた日の出の畑に座っているカピバラの絵2
青いイチゴをイメージしたステンドグラスの窓
「DALL-E」と書かれた道路標識
previous arrow
next arrow
 
様々なスタイルで書かれた日の出の畑に座っているカピバラの絵1
様々なスタイルで書かれた日の出の畑に座っているカピバラの絵2
青いイチゴをイメージしたステンドグラスの窓
「DALL-E」と書かれた道路標識
previous arrow
next arrow

DALL·Eは、本格的な3Dレンダリングソフトが提供する機能の一部を提供します。提供される機能の信頼性は様々ですが、自然言語を介してこれを行う事ができます。

DALL·Eは少数の物体の属性を、限られた範囲で個々に独立して制御できます。その物体がいくつあるか?それらが相互にどのように配置されているか?などを文章で指示できます。

また、画像がレンダリングされる場所と角度を指定し、角度と照明条件の正確な仕様に準拠して既知の物体を生成できます。

入力を明確かつ完全に詳細に指定する必要がある3Dレンダリングエンジンとは異なり、DALL·Eは説明文で明示的に記載されていない部分が画像に含まれている場合「画像の空白部分を埋める」事ができます。

前述の機能の応用
次に、前述の機能をファッションとインテリアデザインに使用する方法について説明します。

(スマートフォンの場合はフリックで左右にスライドできます)

入力画像 オレンジと黒のフランネルシャツを着た男性のマネキン
オレンジと黒のフランネルシャツを着た男性のマネキン
入力画像 黒の革のジャケットと金のプリーツスカートに身を包んだ女性のマネキン
黒の革のジャケットと金のプリーツスカートに身を包んだ女性のマネキン
入力画像 2つの白いアームチェアとコロッセオの絵のあるリビングルーム。絵は現代的な暖炉の上に取り付けられています。
2つの白いアームチェアとコロッセオの絵のあるリビングルーム。絵は現代的な暖炉の上に取り付けられています。
入力画像 ナイトスタンドの隣に白いベッドのあるロフトベッドルーム。ベッドの横に水槽があります。
ナイトスタンドの隣に白いベッドのあるロフトベッドルーム。ベッドの横に水槽があります。
previous arrow
next arrow
 
入力画像 オレンジと黒のフランネルシャツを着た男性のマネキン
オレンジと黒のフランネルシャツを着た男性のマネキン
入力画像 黒の革のジャケットと金のプリーツスカートに身を包んだ女性のマネキン
黒の革のジャケットと金のプリーツスカートに身を包んだ女性のマネキン
入力画像 2つの白いアームチェアとコロッセオの絵のあるリビングルーム。絵は現代的な暖炉の上に取り付けられています。
2つの白いアームチェアとコロッセオの絵のあるリビングルーム。絵は現代的な暖炉の上に取り付けられています。
入力画像 ナイトスタンドの隣に白いベッドのあるロフトベッドルーム。ベッドの横に水槽があります。
ナイトスタンドの隣に白いベッドのあるロフトベッドルーム。ベッドの横に水槽があります。
previous arrow
next arrow

関連しない概念の組み合わせ
言語が持つ構成的性質により、現実世界と想像世界の両方の概念をまとめることができます。DALL·Eには、様々なアイデアを組み合わせて物体を合成する機能もあり、その合成物の一部は現実世界には存在しない可能性があります。

この能力を探求するために使ったのは、様々な概念から動物に特性を転移する手法と、無関係な概念からインスピレーションを得て製品を設計する手法の2つです。

(スマートフォンの場合はフリックで左右にスライドできます)

ハープのような風合いのカタツムリ
ピカチュウの形をしたアームチェア
previous arrow
next arrow
 
ハープのような風合いのカタツムリ
ピカチュウの形をしたアームチェア
previous arrow
next arrow

動物のイラスト
前のセクションでは、現実世界の物体の画像を生成するときに、無関係な概念を組み合わせる事が出来るDALL·Eの機能について説明しました。ここでは、動物や物体の擬人化されたバージョン、動物の合成、絵文字の3種類のイラストについて、アートの観点からこの機能を探ります。

(スマートフォンの場合はフリックで左右にスライドできます)

グランドピアノを弾くスーツ姿のピカチュウのイラスト
ピカチュウとロボットの合成のプロ品質なイラスト
ラブラブ仕様のタピオカティーのプロ品質な絵文字
previous arrow
next arrow
 
グランドピアノを弾くスーツ姿のピカチュウのイラスト
ピカチュウとロボットの合成のプロ品質なイラスト
ラブラブ仕様のタピオカティーのプロ品質な絵文字
previous arrow
next arrow

 

3.DALL·E:文章から画像を作成(2/3)関連リンク

1)openai.com
DALL·E: Creating Images from Text

タイトルとURLをコピーしました