機械学習で自撮りにリアルタイムに拡張現実を適用(1/3)

AI関連その他

1.機械学習で自撮りにリアルタイムに拡張現実を適用(1/3)まとめ

・拡張現実(AR)は、デジタルコンテンツや情報を現実世界に重ね合わせる技術
・ARを現実に重ね合わせるためには現実世界の動きを正確に補足する必要がある
・2つのディープニューラルネットワークモデルで顔の動きが補足できる

2.機械学習とAR

以下、ai.googleblog.comより「Real-Time AR Self-Expression with Machine Learning」の意訳です。元記事の投稿は2019年3月8日、Artsiom AblavatskiさんとIvan Grishchenkoさんによる投稿です。

 

拡張現実(AR)は、デジタルコンテンツや情報を現実世界の上に重ね合わせることによって、自分が見ていることをより効果的にするのに役立ちます。たとえば、Googleマップに付属しているAR機能を使用すると、現実世界の映像上に方向を重ねて進むべき道を見つけることができます。

PixelカメラのクリエイティブモードであるPlaygroundを使用すると、ARを使用して世界の見え方を変えることができます。そして、YouTube Storiesの最新リリースとARCoreの新しいAugmented Faces APIを使えば、アニメーションマスク、メガネ、3D帽子などのオブジェクトを自分のselfiesに追加できます。

これらのAR機能を可能にするための重要な課題の1つは、仮想コンテンツを現実の世界に適切に固定することです。笑顔、しかめっ面、したり顔、動的に表情の変化を追跡できる独自の知覚テクノロジーを必要とするプロセスです。


私達の3Dメッシュとそれが可能にするAR効果の例

これら全てを可能にするために、私達は専用の奥行きセンサなしで単一のカメラ入力のみでおおよその三次元表面形状を推論して視覚効果を可能にするために機械学習(ML)を採用しました。このアプローチでは、モバイルCPUの推論にTensorFlow Liteを使用するか、利用可能な場合は新しいモバイルGPU機能を使用して、リアルタイムにAR効果を使用できます。このテクノロジは、YouTube Storiesの新しいクリエイターエフェクトを強化する技術と同じであり、最新のARCore SDKリリースおよびML Kit Face Contour Detection APIを介して、より広範な開発者コミュニティにも利用可能です。

自撮りにARを持ち込むためのMLパイプライン
私達のMLパイプラインは、連携する2つのリアルタイムディープニューラルネットワークモデルで構成されています。「画像全体を探索して顔の位置を計算する検出器」と「メッシュの位置を探索して回帰によって近似表面形状を予測する一般的な3Dメッシュモデル」です。

顔を正確にトリミングすることで、回転、平行移動、スケール変更のようなアフィン変換など、一般的なデータ拡張の必要性が大幅に減少します。そのため、ネットワークがその能力の大部分を座標予測精度に充てることを可能にします。これは仮想コンテンツを適切に固定するために重要です。

対象位置が特定されると、メッシュネットワークは一度に1つのフレームにのみ適用され、顔が大きく動く際の遅れを避けながら、静止時はノイズを減らすためにウィンドウスムージングを使います。


大きな動きがある中での3Dメッシュの安定性

3.機械学習で自撮りにリアルタイムに拡張現実を適用(1/3)関連リンク

1)ai.googleblog.com
Real-Time AR Self-Expression with Machine Learning

 

コメント

タイトルとURLをコピーしました