InfiniteNature-Zero：静止画の奥に向かって鳥のように飛んでいく動画を無限に生成(2/2)

１．InfiniteNature-Zero：静止画の奥に向かって鳥のように飛んでいく動画を無限に生成(2/2)まとめ

・InfiniteNatureの問題点は学習データとして動画を用いることが難しい事
・InfiniteNature-Zeroは静止画から学習するため動画が不要な新手法
・InfiniteNature-Zeroは敵対的な生成手法も利用して動画をレンダリング

２．Infinite Nature-Zeroとは？

以下、ai.googleblog.comより「Infinite Nature: Generating 3D Flythroughs from Still Photos」の意訳です。元記事は2022年11月7日、Noah SnavelyさんとZhengqi Liさんによる投稿です。

アイキャッチ画像はstable diffusionの1.5版の生成

私達はACIDデータセットを用いて、このレンダー・リファイン・リピート(render-refine-repeat)合成アプローチをトレーニングします。特に、データセットから動画をサンプリングし、その動画から1フレームをサンプリングします。

次に、この方法を用いて、下図に示すように、実際の映像と同じカメラの軌道に沿って風景内を移動する複数の新しい視点をレンダリングし、これらのレンダリングフレームを対応する実際の映像フレームと比較して、学習信号を導出します。また、合成されたフレームを実画像と区別するための敵対的な設定も含まれており、生成された画像がよりリアルに見えるよう促しています。

Infinite Natureは、任意のカメラ軌道に対応した視点を合成することができます。学習時には、学習用ビデオシーケンスから計算されたカメラの軌道に沿ってT個のビューを生成するシステムをTステップ実行し、合成されたビューを真実の視点と比較します。図では、ワープ操作Rとニューラル・リファインメント操作gθを行うことで、各視点が以前のカメラ視点から生成されています。

このようにして得られたシステムは、Infinite Natureプロジェクトのウェブページで紹介されているColabデモ「フライトシミュレータ」のように、説得力のあるフライスルーを生成することができます。映像合成の先行手法とは異なり、この手法ではユーザがインタラクティブにカメラを制御することができ、より長いカメラ軌道を生成することができます。

InfiniteNature-Zero：静止画からフライスルーを学習

この最初のアプローチの問題点は、学習データとして動画を用いることが難しいという点です。

また、高画質で適切な動きのある動画を見つけるのは困難で、動画1コマ1コマの美しさは、意図を持って自然界を撮影した写真のそれとは比較にならないのが一般的です。

そこで、「InfiniteNature-Zero: InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images」では、前述のRender-Refine-Repeat戦略をベースに、静止画のコレクションから永久視差合成(perpetual view synthesis)を学習する方法を考案しています。動画は必要ありません。

この手法は、「ゼロ」動画から学習するため、InfiniteNature-Zeroと呼んでいます。最初は、これは不可能なことのように思えるかもしれません。今まで見てきたのが孤立した写真だけなのに、どうやってシーンの動画フライスルーを生成するモデルを学習するのでしょうか？

この問題を解決するために、私たちは重要な洞察を得ました。

もし、ある画像から、サイクルを形成するカメラ経路をレンダリングした場合、つまり、最後の画像が最初の画像と同じ視点からのものであるように経路がループしている場合、この経路に沿って最後に合成される画像は、入力画像と同じであるべきだと言う事です。

このようなサイクルの一貫性は、視点生成の各ステップにおいて、モデルが欠落した領域を埋め、画像の解像度を上げることを学習するのに役立つ学習制約を提供します。

しかし、このようなカメラサイクルでの学習は、長く安定した一連の視点を生成するには不十分であるため、私達のオリジナル作品と同様に、上図のような長く非サイクリックなカメラ経路を考慮する敵対的戦略を含んでいます。

特に、開始フレームからTフレームをレンダリングする場合、識別ネットワークがどれが開始フレームでどれが最終合成フレームかを識別できないように、レンダー・リファイン・リピートモデルを最適化します。最後に、高品質な空の領域を生成するよう学習させたコンポーネントを追加し、合成結果のリアル感を向上させます。
これらの知見をもとに、ネット上に大量にある風景写真のコレクションを使って、InfiniteNature-Zeroをトレーニングしました。これらの動画は、美しく多様な自然景観を、任意の長さのカメラ軌道で探索できることを示しています。私たちの先行研究、および、先行する映像合成手法と比較して、これらの結果は、コンテンツの品質と多様性において大幅な改善を示しています(詳細は論文でご覧いただけます)。

InfiniteNature-Zeroによって、1枚の写真から生成された複数の自然界のフライスルー

まとめ

この研究は、将来的に多くのエキサイティングな方向性を持っています。例えば、私達の手法は現在、前のフレームとその深度マップのみに基づいてシーンのコンテンツを合成しており、永続的な基礎となる3D表現は存在しません。私達の研究は、完全で、写実的で、一貫性のある3D世界を生成することができる将来のアルゴリズムに向けたものです。

謝辞

Infinite NatureとInfiniteNature-Zeroは、Google Research、UC Berkeley、Cornell Universityの研究者による共同研究の成果です。この記事の主な貢献者は、Angjoo Kanazawa, Andrew Liu, Richard Tucker, Zhengqi Li, Noah Snavely, Qianqian Wang, Varun Jampani, そして Ameesh Makadiaです。