InfiniteNature-Zero：静止画の奥に向かって鳥のように飛んでいく動画を無限に生成(1/2)

１．InfiniteNature-Zero：静止画の奥に向かって鳥のように飛んでいく動画を無限に生成(1/2)まとめ

・素晴らしい自然の風景内を鳥のように飛び回ることが出来たら応用範囲が広い
・Infinite Natureと名付けた研究で映像から無限の3D体験を生成する事を研究
・2021年版では実際のビデオから類似した新しい風景を生成する手法であった

２．Infinite Natureとは？

以下、ai.googleblog.comより「Infinite Nature: Generating 3D Flythroughs from Still Photos」の意訳です。元記事は2022年11月7日、Noah SnavelyさんとZhengqi Liさんによる投稿です。

アイキャッチ画像はstable diffusionの1.5版の生成で無限の空を飛ぶトトロ。風船を試したり、舞空術を使ったり、はたまた箒に乗ったりと様々な飛び方があってトトロはやっぱり面白いですね。

私たちは、雄大な山々、ドラマチックな海の風景、静かな森など、素晴らしい自然美に囲まれた世界に住んでいます。この美しさを、鳥のように詳細で立体的な風景として飛び回ることで表現出来たらと想像してみてください。

このような視覚体験をコンピューターが合成できるようになるでしょうか？

このような能力があれば、ゲームやバーチャルリアリティーの新しいコンテンツが可能になります。例えば、無限に広がる自然の中を飛んでいるような没入感の中でリラックスすることができます。しかし、画像から新しい景色を合成する既存の手法は、限られたカメラの動きしか許さない傾向があります。

私たちは「Infinite Nature」と名付けた研究で、自然の映像や写真を見るだけで、コンピュータがそのような豊かな3D体験を生成することを学習する研究を行っています。

ECCV2022で発表した「InfiniteNature-Zero」は、静止画だけで学習させたシステムで、1枚の元画像から高解像度・高品質のフライスルー(flythroughs)動画を生成できる、これまでにない画期的な研究成果です。

私たちは、この研究課題を「永続的な視点生成(perpetual view generation)」と呼んでいます。

ある風景の単一の入力視点が与えられたとき、その視点を通る任意の長さのユーザ制御の3D経路に対応する、写真のようにリアルな出力ビューのセットをどのようにして合成できるでしょうか？

永続的な視点生成は、システムが大きなランドマーク(例えば山)の反対側に新しいコンテンツを生成し、その新しいコンテンツを高いリアリズムと高解像度でレンダリングしなければならないため、非常に困難です。

InfiniteNature-Zeroで生成したフライスルーの例。自然風景の画像を1枚入力し、その中に飛んでいく長いカメラ軌道を合成し、新しい風景コンテンツを生成しながら進んでいきます。

動画から3Dフライスルーを学習

このようなシステムがどのように機能するかの基本を立証するために、私たちの最初のバージョンである「Infinite Nature」について説明します。

ICCV 2021で発表した「Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image」(以下、「Infinite Nature」)について説明します。この研究では、海岸線に沿って飛行するドローンから撮影したオンラインビデオのセットを収集し、これらの実際のビデオに類似した新しいフライスルーを合成することを学習できるという考えから、「ビデオから学ぶ」アプローチを検討しました。

このオンラインビデオのセットは、ACID(Aerial Coastline Imagery Dataset)と呼ばれています。しかし、任意の3Dカメラ軌道に動的に反応するシーンを合成する方法を学ぶためには、これらの動画を単に画素の生の集まりとして扱うだけでなく、各フレームのカメラ位置を含む基本的な3Dジオメトリを計算する必要があったのです。

基本的な考え方は、フライスルーの生成を段階的に学習することです。下図の最初の画像のような開始時の視点があると、まず単一画像深度予測法を用いて深度マップを計算します。そして、その深度マップを用いて、中央の新しいカメラ視点で画像を前方にレンダリングすると、新しい視点からの画像と深度マップが生成されます。

しかし、この中間画像には問題があります。開始時の画像にはなかった物体の裏側まで見えてしまう穴があります。また、物体に近づいたのに、前のフレームの画素を引き伸ばして大きくした物体をレンダリングしているため、ぼやけた画像になります。

このような問題を解決するために、ニューラルイメージリファインメントネットワークを学習し、この低品質の中間画像を用いて、完全で高品質な画像とそれに対応する深度マップを出力することができるのです。そして、この合成された画像を新たな出発点として、このステップを繰り返すことができるのです。画像と深度マップの両方を改良するため、このプロセスは何度でも繰り返すことができます。カメラが奥に進むにつれて、山、島、海などの新しい風景を生成するようにシステムが自動的に学習します。

Infinite Natureの手法では、入力された視点とそれに対応する深度マップを受け取ります(左)。この深度マップを用いて、入力画像を新たに希望する視点にレンダリングします(中央)。この中間画像には、前景コンテンツの背後にある画素が見えないなどの問題があります(マゼンタ色で表示)。この画像をディープネットワークで学習し、新たな高品質な画像を生成します(右)。このプロセスを繰り返すことで、長い軌跡のような画像を生成することができます。このため、この手法を「レンダー・リファイン・リピート(render-refine-repeat)」と呼んでいます。