Google Pixel 4とPixel 4 XLでのポートレートモードの改良(1/3)

１．Google Pixel 4とPixel 4 XLでのポートレートモードの改良(1/3)まとめ

・Pixel 2に初めて搭載され、Pixel 3で機械学習の力で改良されたポートレートモードがPixel 4で更に改良
・Pixel 4では従来のデュアルピクセルオートフォーカスシステムに加えデュアルカメラにより深度推定が可能
・これにより近い被写体でも遠い被写体でも見栄えの良いポートレートモードショットを撮影可能になった

２．Pixel 4とPixel 4 XLでのポートレートモード

以下、ai.googleblog.comより「Improvements to Portrait Mode on the Google Pixel 4 and Pixel 4 XL」の意訳です。元記事の投稿は2019年12月16日、Neal WadhwaさんとYinda Zhangさんによる投稿です。相変わらずPixelシリーズには特に縁がありませんが、Googleの機械学習関係のテクノロジーはまず最初にPixelシリーズで展開されるのでやはり興味深いです。

ポートレート(Portrait)とは直訳すれば肖像画です。肖像画では人物を目立たせるように背景をぼやかしたり曖昧に描画されますが、同様にカメラでも、被写体が目立つように周りの風景をわざとぼやかして写真を撮るテクニックがあり、それをスマートフォンのカメラで実現するのがポートレートモードです。

Pixelスマートフォンのポートレートモードは、誰でもプロ並みの浅い被写界深度(shallow depth of field)の画像を撮影できるカメラ機能です。

訳注：被写界深度とはカメラのピントが合う距離範囲の事です。被写界深度が狭ければ(浅ければ)、ピントが合う距離が狭いという事ですから人物にピントを合わせれば、自然と周りはボヤけるのでポートレートモードが完成します。しかし、プロでなければ浅すぎる被写界深度を持つカメラは使いにくいケースもあるので、そこを必要に応じて機械学習の力を使って浅い被写界深度を実現しているのがPixelスマートフォンのポートレートモードです。

ポートレートモードの最初のバージョンはPixel 2に搭載されました。次に、Pixel 3では機械学習を使用して背景をぼかすことで視聴者の注意を被写体に引き付けるように改良されました。この改善されたポートレートモードは、カメラのデュアルピクセルオートフォーカスシステムから得た情報で被写体までの深度(奥行き距離)を推定することにより、これを実現しています。

これを実現するために重要な要素は、被写体がカメラからどれだけ離れているか、つまり深度を知ることです。それがわかれば、何を鮮明に保ち、何をぼかすべきかを知ることができます。

Pixel 4では、この機能にさらに2つの大きな改善が加えられました。Pixel 4のデュアルカメラとデュアルピクセルオートフォーカスシステムの両方を活用して深度推定を改善し、近くても遠くてもユーザーがが見栄えの良いポートレートモードショットを撮影できるようにしました。また、ボケも改善し、プロ用の一眼レフカメラのボケにより近くなりました。

訳注：通常、被写体までの距離は三角測量の原理を利用しての測定するため、2つ以上の背面カメラが必要になります。しかし、Googleはソフトウェアの力で距離の推定は十分可能なので背面カメラは1つで十分とのスタンスで、事実、機械学習の力で高品質なポートレートモードを実現してきました。

しかし、競合スマートフォンとハードウェアスペックのみで比較すると見劣りするという意見もあり、例えばiPhone 11 Proは3台の背面カメラ(超広角、広角、望遠)、他メーカーの中には4台のカメラを搭載するような機種も珍しくない現在、ついにPixel 4も背面カメラを物理的に2つ搭載するようになり、その結果、ポートレートモードも更に改善されたというお話です。

Pixel 4のポートレートモードでは、近距離と遠距離の両方でポートレートショットを撮影でき、一眼レフのように背景をぼやけさせる事ができます。(写真クレジット：Alain Saal-DalmaとMike Milne)

短い要約
Pixel 2および3は、カメラのデュアルピクセルオートフォーカスシステムを使用して深度を推定していました。デュアルピクセルは、全ての画素(ピクセル)を半分に分割することで機能します。分割されたピクセル毎にメインレンズの絞りの異なる半分を割り当てます。これらのハーフピクセル画像をそれぞれ個別に読み出すことにより、わずかに異なった2つのシーンがビューとして撮影されます。これらのビューは、1つのレンズを備えた1台のカメラから取得されたものですが、メインレンズの開口部の両側に配置されたカメラの仮想ペアから発生したかのように見えます。(訳注：要は1台のカメラで撮影した画像だけれども2台のカメラで撮影した画像と同様の効果、つまりわずかにズレた同一シーンが撮影でき、そのズレ(視差)から深度を計算できるという事です)これらのビューを交互に切り替えると、被写体は同じ場所にとどまりますが、背景は垂直に動いて見えます。

電球を撮影したデュアルピクセルのビュー(左)は、電球がカメラに非常に近いため、人間を撮影したビュー(右)よりもはるかに視差が大きくなります。

この動きは視差と呼ばれ、その大きさは深度に依存します。

ビュー間で対応するピクセルを見つけることにより、視差を測定する事が出来、そこから深度を推定できます。視差は被写体までの距離とともに減少するのですが、上の画像の電球などのような近くの被写体であえば深度を簡単に推定できます。

視差は、ステレオベースラインの長さ、つまりカメラ(またはデュアルピクセルの場合は仮想カメラ)間の距離にも依存します。デュアルピクセルの視点のベースラインは1mm未満で非常に小さいです。これは、単一のカメラのレンズ内に含まれているためです。これが、Pixel 3では遠い風景の奥行きを推定することが難しい理由です。先ほどの人間を撮影した2つのビューはほぼ同一に見えてしまっていますが、つまり視差が小さくなり、距離の推定が難しいのです。