LFNRとGPNR：反射するCDを含む場面の視線合成が可能な新手法(1/2)

１．LFNRとGPNR：反射するCDを含む場面の視線合成が可能な新手法(1/2)まとめ

・ある風景の複数の写真から新しい視点を合成する視点合成タスクは長年の課題
・LFNRではCDの光彩のような視点に依存する効果を再現する課題に取り組んだ
・GPNRでは新しい風景の視点を合成する事で未見の風景への汎化に取り組んだ

２．LFNRとは？

以下、ai.googleblog.comより「View Synthesis with Transformers」の意訳です。元記事は2022年9月21日、Carlos EstevesさんとAmeesh Makadiaさんによる投稿です。

アイキャッチ画像はstable diffusionでプリズムで遊ぶトトロ

コンピュータビジョンとコンピュータグラフィックスの交差点における長年の問題である視点の合成は、ある風景の複数の写真から風景の新しい視点を作成するタスクです。

これは、ニューラル・ラジアンス・フィールド(NeRF:Neural Radiance Fields)の紹介以来、注目されるようになりました。

この問題は、風景の新しい視点を正確に合成するために、モデルがその詳細な3D構造、材料、および照明など、多くの種類の情報を少ない参照画像セットから取得する必要があるため困難です。

本投稿では、最近発表された視点合成のためのディープラーニングモデルを紹介します。CVPR 2022で発表した「Light Field Neural Rendering(LFNR)」では、参照画素の色の組み合わせを学習するtransformersを用いて、視点に依存する効果を正確に再現する課題に取り組んでいます。

次に、ECCV 2022で発表予定の「Generalizable Patch-Based Neural Rendering(GPNR)」では、一連の風景で学習可能な正規化位置エンコーディング(canonicalized positional encoding)を持つtransformersを用いて、新しい風景の視点を合成することにより、未見の風景に汎化するという課題に取り組みます。

これらのモデルにはいくつかのユニークな特徴があります。このモデルは画像ベースのレンダリングを行い、参照画像から色と特徴を組み合わせて、新しい視点をレンダリングします。また、4次元ライトフィールド表現を用いて位置のエンコーディングを行うため、視界に依存する効果をモデル化することができます。

ある風景の数枚の画像が与えられたときに、その風景の新しい視点を生成することができる深層学習モデルを訓練します。これらのモデルは、試験管の屈折や半透明のような視点に依存する効果を扱うときに特に効果的です。このアニメーションは圧縮されています。オリジナル品質のレンダリングは元サイトでmp4でご覧ください。ソースはこちら NeX/Shinyデータセットの研究所の風景です。

概要

モデルへの入力は、参照画像とそのカメラパラメータ(焦点距離、位置、空間における向き)、および色決定に使うターゲット光線の座標で構成されます。新しい画像を生成するためには、入力画像のカメラパラメータから始めて、ターゲット光線(それぞれが画素に対応します)の座標を取得し、それぞれについてモデルに問い合わせをします。

各参照画像を完全に処理するのではなく、ターゲットとなる画素に影響を与える可能性のある領域のみを調べます。この領域はステレオビジョンを扱う際に用いられるエピポーラ幾何(epipolar geometry)によって決定され、各ターゲット画素を各基準フレーム上の線に対応させます。

堅牢性を高めるために、エピポーラ線上のいくつかの点の周辺に小さな領域を取ります。この結果、モデルによって実際に処理される画像断片の集合が得られます。そして、この断片集合にtransformersを作用させ、対象画素の色を求めます。

transformersは、その自己attentionメカニズムが自然にこのセットを入力として取るので、この設定で特に有用であり、attentionの重み自体は、出力ピクセルの色を予測するために、参照視点による色と特徴を組み合わせるために使用することができます。これらのtransformersはViTで紹介されたアーキテクチャを踏襲しています。