Web MLによるGoogle Meetの背景置き換え(2/2)

１．Web MLによるGoogle Meetの背景置き換え(2/2)まとめ

・レンダリングにはジョイントバイラテラルフィルターを使用して滑らかにしている
・ハイエンド機(MacBook Pro)とローエンド機(Chromebook)で速度と精度を両立できた
・公平性を評価しモデルが様々な地域、肌の色、性別でパフォーマンスに一貫性を持つ事を確認

２．Google Meetの背景ぼかし技術の性能

以下、ai.googleblog.comより「Background Features in Google Meet, Powered by Web ML」の意訳です。元記事の投稿は2020年10月30日、Tingbo HouさんとTyler Mullenさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Christina on Unsplash

レンダリング効果
セグメンテーションが完了すると、ビデオ処理とエフェクトレンダリングにOpenGLシェーダーを使用します。ここでの課題は、人工的な効果を減らすように効率的にレンダリングすることです。
改良段階では、低解像度マスクを滑らかにするためにジョイントバイラテラルフィルター(joint bilateral filter)を適用します。

レンダリング効果で人工的な効果を減らす
左：ジョイントバイラテラルフィルターがセグメンテーションマスクを滑らかにします。
中央：分離可能なフィルターが背景がぼやけるハロー効果を削除します。
右：背景が明るくなるラッピング効果が置き換えられます。

ブラーシェーダー(blur shader)は、光学系のぼかし斑点(CoC:Circle-of-Confusion)と同様に、セグメンテーションマスク値に比例して各画素のブラー強度を調整することにより、ボケ効果をシミュレートします。

画素はCoC半径によって重み付けされるため、前景のピクセルが背景ににじむことはありません。人気のあるガウスピラミッドの代わりに、人を取り巻くハロー効果を除去するため、加重ブラー用に分離可能なフィルターを実装しました。ぼかしは効率を上げるために低解像度で実行され、元の解像度で入力フレームとブレンドされます。

背景のぼかしの例

背景の置き換えには、セグメント化された人物とカスタマイズされた背景画像をブレンドするために、ライトラッピング(light wrapping)と呼ばれる合成手法を採用しています。

ライトラッピングは、背景光が前景要素にこぼれるようにすることでセグメンテーションの尖った部分を柔らかくし、合成をより没入感のあるものにします。また、前景と置き換えられた背景の間に大きなコントラストがある場合に、ハロー効果を最小限に抑えるのに役立ちます。

背景置換の例

パフォーマンス
さまざまなデバイス上の体験を最適化するために、複数の入力サイズ(つまり、現在のリリースでは256×144および160×96)のモデルのバリエーションを提供し、利用可能なハードウェアリソースに応じて最適なものを自動的に選択します。

モデル推論の速度と直接実行した際の全体的な速度を評価しました。2.2 GHz6コアIntel Core i7を搭載したMacBookPro 2018とIntel Celeron N3060を搭載したAcer Chromebook11の2つの一般的なデバイスでの評価しました。結果は720p入力の場合、MacBookProは120FPSで高品質モデルを実行し、70FPSでエンドツーエンドパイプラインを実行できます。Chromebookは、低品質モデルと33FPSのエンドツーエンドで62FPSで推論を実行できます。

Model	FLOPs	Device	Model Inference	Pipeline
256×144	64M	MacBook Pro 18	8.3ms (120 FPS)	14.3ms (70 FPS)
160×96	27M	Acer Chromebook 11	16.1ms (62 FPS)	30ms (33 FPS)

ハイエンド機(MacBook Pro)およびローエンド機(Chromebook)ラップトップでモデル推論速度と直接実行時の実行時間

モデルの精度を定量的に評価するために、IOU(intersection-over-union)とboundary F-measureの一般的な測定基準を採用しました。どちらのモデルも、特にこのような軽量ネットワークを使用する場合に、高品質を実現しています。

Model	IOU	Boundary F-measure
256×144	93.58%	0.9024
160×96	90.79%	0.8542

IOUとboundary F-scoreによって測定されたモデル精度の評価

また、セグメンテーションモデル用に付属としてモデルカードをリリースします。これには、公平性の評価が詳しく説明されています。私達の評価データには、肌の色と性別の注釈が付いた、世界の17の地理的地域からの画像が含まれています。私達の分析によると、モデルはさまざまな地域、肌の色、性別でパフォーマンスに一貫性があり、IOUメトリックの偏差はわずかです。

結論
GoogleMeetで背景をぼかして置き換えるための新しくブラウザ内で実行できるMLソリューションを発表しました。これにより、MLモデルとOpenGLシェーダーをWeb上で効率的に実行できます。開発された機能は、計算能力が低いデバイスでも、低消費電力でリアルタイムのパフォーマンスを実現します。

謝辞
このプロジェクトに携わったMeetチームのメンバー、特にSebastian Jansson, Rikard Lundmark, Stephan Reiter, Fabian Bergmark, Ben Wagner, Stefan Holmer, Dan Gunnarson, Stéphane Hulaudおよびこのプロジェクトに携わった全てのチームメンバー、Siargey Pisarchyk、Karthik Raveendran、Chris McClanahan、Marat Dukhan、Frank Barchard、Ming Guang Yong、Chuo-Ling Chang、Michael Hays、Camillo Lugaresi、Gregory Karpiak、Siarhei Kazakou、Matsvei Zhdanovich、Matthias Grundmannに感謝します。