DALL·E：文章から画像を作成(2/3)

１．DALL·E：文章から画像を作成(2/3)まとめ

・DALL·Eでは、画像に対する視点や3Dスタイル、光学的歪みも制御できる
・「極端に拡大した視点」や「X線」スタイルで断面図や接写構図の画像も可能
・入力文に指定されていない撮影状況の詳細を推測したり合成する事も可能

２．DALL·Eの機能

以下、openai.comより「DALL·E: Creating Images from Text」の意訳です。元記事の投稿は2021年1月5日、Aditya Rameshさん、Mikhail Pavlovさん、Gabriel Gohさん、Scott Grayさん、Mark Chenさん、Rewon Childさん、Vedant Misraさん、Pamela Mishkinさん、Gretchen Kruegerさん、Sandhini Agarwalさん、Ilya Sutskeverさん、Justin Jay Wangさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Erik Mclean on UnsplashにWebBigDataがダリの顔を合成

視点の移動と三次元スタイルの視覚化
DALL·Eでは、画像に対する視点や3Dスタイルも制御できることがわかりました。

訳注：以下、スライドは全て一部画像の抜粋です。元ページではもっと様々なパターンを選択できますので興味を持たれた方は是非下部リンクよりご覧ください。

(スマートフォンの場合はフリックで左右にスライドできます。)

山に座っているワシの背面図

野原に座っているカピバラの低ポリゴンメッシュ

これを更に確かめるため、等間隔で一連の角度から有名な人物の頭を繰り返し描くDALL·Eの能力をテストし、頭部を回転させる滑らかなアニメーションを復元できることを確認しました。

入力画像
ホメロスの胸像の写真
(a photograph of a bust of homer)

生成画像

DALL·Eは、「魚眼レンズ」や「球面パノラマ」で見られるようないくつかのタイプの光学的歪みをシーンに適用できるように見えます。これにより、反射を生成する能力を探求するようになりました。

入力画像
鏡に映った自分の姿を見ている真っ白な立方体
(a plain white cube looking at its own reflection in a mirror)

生成画像

内部および外部構造の視覚化
「極端に拡大した視点」と「X線」スタイルのサンプルから、内部構造の断面図をレンダリングしたり、外部構造を接写してレンダリングするDALL・Eの機能を更に調査しました。

(スマートフォンの場合はフリックで左右にスライドできます)

クルミの断面図

脳サンゴの接写

撮影状況の詳細を推測する
テキストを元に画像を作成するタスクは完璧には指示されません。通常、単一の説明文と画像は一対一の対応になりません。もっともらしい画像のパターンは無限大に存在します。

例えば、「日の出の畑に座っているカピバラの絵」という説明文を考えてみましょう。カピバラの向きによっては、影を描く必要があるかもしれませんが、影の詳細については明示的に言及されていません。スタイル、設定、時間の変更という3つのケースで、仕様記述不足を解決するDALL·Eの機能を調査しました。様々な状況で同じ物体を描画する事、特定の文章が書かれた物体の画像を生成する事、などです。

(スマートフォンの場合はフリックで左右にスライドできます)