機械学習で改善されたPixel 3のポートレートモード(1/2)

１．機械学習で改善されたPixel 3のポートレートモード(1/2)まとめ

・昨年のPixel2では従来のステレオアルゴリズムを使用してポートレートモードを実現していた
・ステレオアルゴリズムは三角測量の原理を利用して対象の点までの距離を算出するが限界があった
・今年のPixel3では機械学習を用いて更に鮮明なポートレートモードを実現している

２．機械学習を用いたPixel 3のポートレートモード

以下、ai.googleblog.comより「Learning to Predict Depth on the Pixel 3 Phones」の意訳です。元記事は2018年11月29日、Rahul GargさんとNeal Wadhwさんによる投稿です。後編はこちら。

Pixelスマートフォンは、プロカメラマンが人物撮影の際に良く使う手法、すなわち背後の背景をぼかすことで被写体を際立たせるポートレート(肖像画)モードで撮影をする事ができます。

昨年のPixel 2では、学習ベースではない従来のステレオアルゴリズムであるPDAF(位相検出オートフォーカス、デュアルピクセルオートフォーカスとも呼ばれます)を使って奥行情報を推定していました。シングルカメラしか搭載していないPixelシリーズがどのように奥行情報を推定しているのかについてはこちらで詳しく解説しています。今年発売されたPixel 3では、奥行情報を推定する精度を改善し、より鮮明なポートレートモードを実現するために、機械学習の手法に着目しました。

左：オリジナルのHDR+画像。右：従来のステレオアルゴリズムによるポートレートモードと新しい機械学習アルゴリズムによるポートレートモードの比較。機械学習を用いた撮影結果は、誤差がより少なく被写体をより際立たせます。特に、従来のステレオアリゴリズムでは、男性の背後にある水平線の多くが、男性と同じ距離にあると誤って推定され、鮮明に保たれてしまっています。（マイク・ミルン）

簡単に要約すると
昨年のブログ記事で解説したように、ポートレートモードはニューラルネットワークを使用して、被写体と背景を画素単位で判別し、それぞれの領域を特定します。その後、PDAFを用いて測定した奥行き情報で領域情報を補強します。これにより、各領域をどの程度ぼかすべきか奥行情報で判断する事ができるようになり、結果はプロのカメラマンが撮影した写真に近いレベルになります。

PDAFピクセルは、以下のように風景を2つのわずかに異なる視点から撮影する事で実現します。2つの視点を切り替えると、人物は静止しているのに対して背景は水平に移動します。この効果は視差と呼ばれ、視差はカメラからの距離と2つの視点間の距離の関数で表現できます。そのため、２つの視点の対応する点を特定すると、三角測量の原理で、その点の奥行きを推定する事ができます。

左と中央の2つのPDAF画像は非常によく似ていますが、右側の拡大図では、２つの視点間の視差を見ることができます。拡大図の中央に位置する円形部分が最もわかりやすいです。

しかしながらPDFA画像から2つの視点が一致する点を発見する事は困難です。ほとんどのケースでフレーム間でポイントは微妙に移動しますし、加えて、全てのステレオ技術は、開口の問題を抱えています。つまり、小さな開口部を通してシーンを見ると、ステレオベースラインに平行な線、2つの視点を結ぶ線と平行な線の一致点を見つけることは不可能です。昨年までのポートレートモードでは、これらの要因が奥行情報の推定に誤差をもたらし、その結果、写真の一部に不自然な効果が写り込む可能性がありました。

(機械学習で改善されたPixel 3のポートレートモード(2/2)に続きます。）