1.シネマティック フォトの背後にある技術(2/2)まとめ
・引き延ばした部分の人工物が見えないようにカメラ軌道を最適化している
・アスペクト比を維持するために目立たせたい部分を予測するニューラルネットワークも活用
・Cinematic photosはGoogleフォトアプリ内の「思い出」に表示される可能性がある
2.シネマティック フォトの原理
以下、ai.googleblog.comより「The Technology Behind Cinematic Photos」の意訳です。元記事の投稿は2021年2月23日、Per KarlssonさんとLucy Yuさんによる投稿です。
アイキャッチ画像のクレジットはPhoto by Jan Kopřiva on Unsplash
3Dシーン再構成の最初のステップは、RGB画像を深度マップに押し出してメッシュを作成することです。こうすることで、メッシュ内の隣接するポイントの深度に大きな違いが生じる可能性があります。これは「正面」視点からは目立ちませんが、仮想カメラを動かすほど、深度の大きな変化にまたがるポリゴンが表示される可能性が高くなります。
レンダリングされた出力ビデオでは、これは入力テクスチャが引き伸ばされているように見えます。仮想カメラをアニメーション化する際の最大の課題は、これらの「伸縮性のある(stretchy)」人工物を最小限に抑えながら、視差を導入する軌道を見つけることです。
カメラが「正面」ビューから離れると、深度の差が大きいメッシュの部分がより見やすくなります(赤で視覚化)。これらの領域では、写真が引き伸ばされているように見えます。これを「伸縮性のある人工物(stretchy artifacts)」と呼びます。
ユーザーの写真とそれに対応する3D再構成は広い範囲にわたるため、全てのアニメーションが1つの軌跡を共有することはできません。代わりに、最終的なアニメーションでどの程度の伸縮性が見られるかを捕捉する損失関数を定義します。これにより、個々の写真毎にカメラパラメータを最適化できます。
損失関数は、人工物として識別された画素の総数をカウントするのではなく、人工物が密接している領域でより多くトリガーされます。これは、これらの密接した領域の人工物に視聴者が気づきやすいという傾向を反映しています。
人間のポーズネットワークからパッディングされたセグメンテーションマスクを利用して、画像を頭、体、背景の3つの異なる領域に分割します。損失関数は、正規化された損失の加重和として最終損失を計算する前に、各領域内で正規化されます。生成された出力ビデオに人工物が写り込まない事が理想的ですが、実際にはこれは稀です。
領域に重みを付けると、最適化プロセスが偏りを持つようになり異なった軌道が選択されます。
これは画像の被写体の近くの人工物よりも、背景領域の人工物を優先します。
カメラの軌道の最適化の目標は、目立つ人工物の量が最も少ないカメラの軌道を選択することです。これらのプレビュー画像では、出力の人工物は赤で表示され、緑と青のオーバーレイはさまざまな身体領域を視覚化しています。
撮影シーンのフレーミング
一般に、再投影された3Dシーンは、縦向きの長方形にうまく収まらないため、入力画像の重要な部分を保持したまま、正確なアスペクト比で出力をフレーム化する必要もありました。これを実現するために、画像全体の画素毎の顕著性を予測するディープニューラルネットワークを使用します。
仮想カメラを3Dでフレーミングする場合、モデルは、レンダリングされたメッシュがすべての出力ビデオフレームを完全に占めるようにしながら、できるだけ多くの顕著な領域を識別して捕捉します。これには、モデルがカメラの視野を縮小する必要がある場合があります。
予測された画素毎の顕著性ヒートマップ
仮想カメラをフレーミングするときに、できるだけ多くの顕著な領域を含めて作成する必要があります。
結論
Cinematic photosを通じて、ユーザーが新しい方法で思い出を追体験できるように連携するアルゴリズムを実装しました。各MLモデルの公平性も評価済みです。今後の研究と機能の改善に興奮しています。
それでは、背後にある技術と作成方法がわかったので、Googleフォトアプリ内の「最近の思い出」に表示される可能性のある、自動的に作成されたCinematic photosに注目してみてください!
謝辞
Cinematic Photosは、GoogleResearchとGooglePhotosチームのコラボレーションの結果です。主な貢献者は以下の人々を含みます。Andre Le, Brian Curless, Cassidy Curtis, Ce Liu, Chun-po Wang, Daniel Jenstad, David Salesin, Dominik Kaeser, Gina Reynolds, Hao Xu, Hayato Ikoma, Huiwen Chang, Huizhong Chen, Jamie Aspinall, Janne Kontkanen, Matthew DuVall, Michael Kucera, Michael Milne, Mike Krainin, Mike Liu, Navin Sarma, Orly Liba, Peter Hedman, Rocky Cai, Ruirui Jiang, Steven Hickson, Tracy Gu, Tyler Zhu, Varun Jampani, Yuan Hao, Zhongli Ding.
3.シネマティック フォトの背後にある技術(2/2)関連リンク
1)ai.googleblog.com
The Technology Behind Cinematic Photos