毛先まで明瞭に自撮りできるPixel 6のポートレートモード(2/2)

１．毛先まで明瞭に自撮りできるPixel 6のポートレートモード(2/2)まとめ

・アルファマットの品質向上によりPixel 6の前面カメラを使ったポートレートモードを改善
・髪の毛の領域と被写体の境界の周囲の背景のぼかしの見栄えを改善するできている
・また、様々な肌の色や髪型をカバーする多様なデータで学習しバイアスを減らしている

２．レシオマットとは？

以下、ai.googleblog.comより「Accurate Alpha Matting for Portrait Mode Selfies on Pixel 6」の意訳です。元記事は2022年1月24日、Sergio Orts EscolanoさんとJana Ehmanさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Erica Marsland Huynh on Unsplash

グランドトゥルースデータの作成

Light Stageは、331個のカスタムカラーLEDライト、高解像度カメラ、カスタム高解像度深度センサーを備えた球体上の撮影装置であり、ほぼフォトリアリスティックな人物モデルを作成し、正確なグランドトゥルースデータ(ground truth)を生成します。

Light Stageのデータとともに、時間多重化されたライトと事前に記録された「クリーンプレート」を使って正確なアルファマット(alpha mattes)を計算します。この技術はレシオマット(ratio matting)とも呼ばれます。

この方法は、照明された背景に被写体のシルエットを写した画像を照明条件の一つとして記録する仕組みです。さらに、照明された背景を何も写していないクリーンプレート状態で撮影します。シルエット画像をクリーンプレート画像から除くことで、グランドトゥルースのアルファマットを得ることができます。

そして、ディープラーニングを用いたマットネットワークにより、記録されたアルファマットをLight Stageの全カメラ視点に外挿します。その際、撮影したクリーンプレートを入力として活用します。

このアプローチにより、特殊な時間多重照明や背景から障害物を除去せずとも、制約のない背景でアルファマット計算を拡張することができます。このディープラーニングアーキテクチャは、レシオマッティングアプローチを使用して生成されたグランドトゥルースマットのみを使用してトレーニングされました。

Light Stageの全カメラ視点からのアルファマットを計算したもの

各被写体の反射率(reflectance)フィールドと、グランドトゥルースマット生成システムで生成されたアルファマットを活用すると、各ポートレートを、与えられたHDR照明環境で再照明することができます。

この再照明された被写体を、アルファブレンドの式に従って、目標照度に対応した背景に合成します。背景画像は、HDRパノラマ画像の中心に仮想カメラを配置し、カメラの投影中心からパノラマ画像にレイトレーシングすることで生成されます。

このとき、パノラマに投影された景色が、再照明時に使用される方向と一致するようにします。また、焦点距離の異なる仮想カメラを使用することで、市販用カメラの視野の違いをシミュレートしています。このパイプラインは、マット処理、リライティング、合成を1つのシステムで処理することにより、リアルな合成を実現します。

グランドトゥルースから生成したアルファマットを用いて、異なる背景(高解像度HDRマップ)に合成した画像

現実世界のポートレート写真を用いた教師あり学習

Light Stageで生成されたポートレートと現実世界で撮影されたポートレートとのギャップを埋めるために、現実の写真に自動的に注釈付けし、擬似的なグランドトゥルース(pseudo–ground truth)のアルファマットを生成するパイプラインを作成しました。

この目的のために、Total Relightingで提案されたDeep Mattingモデルを活用し、野生の画像から複数の高解像度アルファマットを計算するモデルのアンサンブルを作成しました。

このパイプラインを、Pixelスマートフォンを使用して内製したポートレート写真の広範なデータセットに対して実行しました。さらに、このプロセスでは、異なる縮尺と回転の入力画像に対して推論を行い、最終的にすべての推定アルファマットにわたって画素単位のアルファ値を集約することで、テスト時間を水増ししました。

生成されたアルファマットは、入力RGB画像に対して視覚的に評価されます。そして、被写体のシルエットや細かいディテール(例えば、髪の毛など)に追従した、知覚的に正しいアルファマットを学習セットに追加します。学習中、両データセットは異なる重みを用いてサンプリングされます。今回提案した教師あり戦略を用いることで、モデルをより多様なシーンや人間のポーズにさらすことができ、現実世界の写真に対する予測精度が向上(モデルが汎化)します。

Deep Mattingモデルのアンサンブルとテスト時水増しを用いた疑似的なグランドトゥルースアルファマットの推定

ポートレートモードを使った自撮り

ポートレートモードの効果は、被写体境界付近の誤差に特に敏感です(下図参照)。

例えば、粗いアルファマットを使用した場合の誤差は、被写体境界付近や髪部分の背景を鮮明なままにしてしまいます。高品質なアルファマットを使用することで、より正確に被写体のシルエットを抽出し、分離を改善し、前景を際立たせるように背景をぼかすことができます。

ご自身で試してみてください！

Pixel 6の前面カメラを使ったポートレートモードは、アルファマットの品質向上により、最終的なレンダリング画像の誤差を少なくし、髪の領域と被写体の境界の周囲の背景のぼかしの見栄えを改善することで、より良いものにしました。

さらに、私たちのMLモデルは、さまざまな肌の色や髪型をカバーする多様なトレーニングデータセットを使用しています。この改良版ポートレートモードは、新しいPixel 6スマートフォンで自撮り撮影することで試すことができます。

粗いアルファマットで撮影した自撮り写真と、新しい高品質アルファマットで撮影した自撮り写真のポートレートモード効果の比較

謝辞

本研究はSergio Orts Escolano, Jana Ehmann, Sean Fanello, Christoph Rhemann, Junlan Yang, Andy Hsu, Hossam Isack, Rohit Pandey, David Aguilar, Yi Jinn, Christian Hane, Jay Busch, Cynthia Herrera, Matt Whalen, Philip Davidson, Jonathan Taylor, Peter Lincoln, Geoff Harvey, Nisha Masharani, Alexander Schiffhauer, Chloe LeGendre, Paul Debevec, Sofien Bouaziz, Adarsh Kowdle, Thabo Beeler, Chia-Kai Liang 及び Shahram Izadiの存在なくしては実現しなかったでしょう。

また、数多くのテスト写真を撮影していただいた写真家のJames Adamson, Christopher Farro そして Cort Mullerに感謝いたします。