MediaPipe Holistic：オンデバイスで顔、手、ポーズを同時に予測(2/2)

１．MediaPipe Holistic：オンデバイスで顔、手、ポーズを同時に予測(2/2)まとめ

・MediaPipe Holisticは2017年モデルや中価格帯のスマホほぼリアルタイムで実行可能
・モデルがほとんど独立しているため、速度と精度の要件に応じて一部を差し替え可能
・PythonとJavaScriptですぐに使用できるカスタマイズ可能なソリューションも提供開始

２．MediaPipe Holisticの性能

以下、ai.googleblog.comより「MediaPipe Holistic — Simultaneous Face, Hand and Pose Prediction, on Device」の意訳です。元記事の投稿は2020年12月10日、Ivan GrishchenkoさんとValentin Bazarevskyさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Simon Rae on Unsplash
その他のMediaPipeシリーズのまとめ記事はこちら。

パフォーマンス
MediaPipe Holisticでは、フレームごとに最大8つのモデル(ポーズ検出器1つ、ポーズランドマークモデル1つ、再トリミングモデル3つ、手と顔のキーポイントモデル3つ)間の調整が必要です。このソリューションを構築する際に、機械学習モデルだけでなく、前処理および後処理アルゴリズム(アフィン変換など)も最適化しました。

これらの処理はパイプラインの複雑さのためにほとんどのデバイスでかなりの時間がかかる処理となっていました。本ケースでは、全ての前処理計算をGPUに移動すると、デバイスによって異なりますが、パイプライン全体の速度が約1.5倍向上しました。その結果、MediaPipe Holisticは、最高級機種ではない中級ランクのスマホやブラウザでもほぼリアルタイムのパフォーマンスで実行できます。

Phone	FPS
Google Pixel 2 XL	18
Samsung S9+	20
15-inch MacBook Pro 2017	15

様々な中級ランクのデバイスでTFLite GPUを使用して1秒あたりのフレーム数(FPS)でパフォーマンスを測定

パイプラインが多段アプローチで構成されている事により、更に2つのパフォーマンス上の利点があります。モデルはほとんど独立しているため、速度と精度の要件に応じて、より軽いバージョンまたはより重いバージョンに置き換えることができます。(または完全にオフにすることができます)また、ポーズが推測されると、手と顔がフレーム内に存在するかどうかが正確にわかり、パイプラインがこれらの体の部分の推測をスキップできるようになります。

アプリケーション
MediaPipe Holisticは、540以上のキーポイントを備えており、ボディランゲージ、ジェスチャー、顔の表情を全体的に同時に認識できるようにすることを目的としています。

この混合アプローチにより、リモートジェスチャインターフェイス、全身を対象としたAR、スポーツ分析、手話認識が可能になります。MediaPipe Holisticの品質とパフォーマンスを実証するために、ブラウザでローカルに実行され、マウスやキーボードを必要とせずに魅力的なユーザー操作を可能にするシンプルなリモートコントロールインターフェイスを構築しました。

ユーザーは、画面上の物体を操作したり、ソファに座って仮想キーボードで入力したり、特定の顔の領域をポイントしたりタッチしたりできます。(例えば、カメラをミュートまたはオフにします)。

その下では、正確な手の検出に依存しており、その後のジェスチャ認識は、ユーザーの肩に固定された「トラックパッド」スペースにマッピングされ、最大4メートルからのリモートコントロールを可能にします。

ジェスチャ制御のこの手法は、他の人間とコンピュータの相互作用モダリティが便利でない場合に、さまざまな新しいユースケースのロックを解除できます。私たちのウェブデモでそれを試してみて、それを使ってあなた自身のアイデアで試作品を作ってみてください。

ブラウザ内のタッチレスコントロールのデモ。
左：パームピッカー、タッチインターフェイス、キーボード
右：離れたタッチレスキーボード
mediapipe.devのholistic_remoteで実際にやってみてください！

研究とWebのためのMediaPipe
MLの研究と、Web開発者コミュニティでの採用を加速するために、MediaPipeは、PythonとJavaScriptで、すぐに使用でき、カスタマイズ可能なMLソリューションを提供するようになりました。

MediaPipe Holisticを含む、以前の発表物であるFace Mesh、Hands、Poseから始めており、今後さらに多くが予定されています。Webブラウザで直接試してみてください。

Pythonの場合、Google ColabでMediaPipe用ノートブックを使用
JavaScriptの場合、CodePenで独自のWebカメラ入力をMediaPipeで使用する

まとめ
MediaPipe Holisticのリリースにより、研究開発コミュニティのメンバーが新しい独自のアプリケーションを構築するきっかけになることを願っています。これらのパイプラインは、手話認識、タッチレス制御インターフェース、またはその他の複雑な使用方法など、困難な領域に関する将来の研究への扉を開くと予想されます。私達はあなたがそれで何を構築できるか見る事を楽しみにしています！

複雑でダイナミックな手のジェスチャー。Bill Vicars博士によるビデオで許可を得て使用しています。

謝辞
私達と一緒に技術に取り組んだすべてのチームメンバーに特に感謝します。
Fan Zhang, Gregory Karpiak, Kanstantsin Sokal, Juhyun Lee, Hadon Nash, Chuo-Ling Chang, Jiuqiang Tang, Nikolay Chirkov, Camillo Lugaresi, George Sung, Michael Hays, Tyler Mullen, Chris McClanahan, Ekaterina Ignasheva, Marat Dukhan, Artsiom Ablavatski, Yury Kartynnik, Karthik Raveendran, Andrei Vakunov, Andrei Tkachenka, Suril Shah, Buck Bourdon, Ming Guang Yong, Esha Uboweja, Siarhei Kazakou, Andrei Kulik, Matsvei Zhdanovich, およびMatthias Grundmann.