KeyPose：ステレオ画像で透明物体の三次元ポーズ推定を更に改良(2/2)

１．KeyPose：ステレオ画像で透明物体の三次元ポーズ推定を更に改良(2/2)まとめ

・ステレオKeyPoseの重要な側面の1つはEarly fusionを使用してステレオ画像を融合する事
・Late fusionまたは単眼入力と比較すると、Early fusionステレオ入力の精度は通常2倍
・5msの推論速度で透明ボトルはMAE5.2mmマグカップ10.1mmの精度で予測可能

２．KeyPoseの性能

以下、ai.googleblog.comより「KeyPose: Estimating the 3D Pose of Transparent Objects from Stereo」の意訳です。元記事の投稿は2020年9月2日、Kurt Konoligeさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Markus Spiske on Unsplash

Early fusionしたステレオ画像を使用してKeyPoseアルゴリズム
キーポイントの推定にステレオ画像を直接使用するというアイデアは、このプロジェクトのために独自開発しました。最近では、ハンドトラッキングの研究分野(End-to-End 3D Hand Pose Estimation from Stereo Cameras)でも使用されています。

以下の図は、基本的な考え方を示しています。

ステレオカメラで撮影された2つの画像は物体の周囲で切り抜かれ、KeyPoseネットワークに送られます。KeyPoseネットワークは、物体の3Dポーズを表現する3Dキーポイントを何点かまばらに予測します。その後、ネットワークは、ラベル付けされた3Dキーポイントを教師としてトレーニングされます。

ステレオKeyPoseの重要な側面の1つは、Early fusionを使用してステレオ画像を融合することです。これにより、Late fusionとは対照的にネットワークが暗黙的に視差を計算できるようになります。Late fusionでは、各画像のキーポイントが個別に予測されてから融合されます。

訳注：
Early fusionとLate fusionはbeforeディープラーニング時代から画像研究分野に存在する概念で、様々な特徴表現を学習してから融合するのか、様々な特徴表現を融合してから学習するかの違いです。KeyPoseはステレオ画像についてのお話なので、
Early fusion : ステレオ画像を融合してから特徴表現を学習
Late fusion : 個々のステレオ画像の特徴表現を学習してから融合
の理解で良いと思われます。

次の図に示すように、KeyPoseの出力は、「各キーポイントの視差(つまり、逆深度)ヒートマップ」と「画像内の2Dキーポイントヒートマップ」です。これら2つのヒートマップを組み合わせると、キーポイントごとにキーポイントの3D座標が得られます。

Keyposeシステム図
ステレオ画像はCNNモデルに渡され、各キーポイントの確率ヒートマップが作成されます。確率ヒートマップは、キーポイントの2D画像座標(U, V)を生成します。CNNモデルは、各キーポイントの視差(逆深度)ヒートマップも生成します。これを(U, V)座標と組み合わせると、3D位置(X, Y, Z)になります。

Late fusionまたは単眼入力(monocular input)と比較すると、Early fusionステレオ入力の精度は通常2倍です。

結果

以下の画像は、個々の物体に対するKeyPoseの定性的な結果を示しています。左端は元のステレオ画像の1つです。中央は画像に投影された予測3Dキーポイントです。右端はボトルの3Dモデル上のポイントを視覚化しています。各ポイントは「予測された3Dキーポイントによって決定されるポーズ」上に配置されます。ネットワークは効率的かつ正確であり、標準のGPUを実行するとわずか5msで、ボトルは平均絶対誤差(MAE:Mean Absolute Error)が5.2mm、マグカップはMAEが10.1mmの精度でキーポイントを予測できます。

以下の表は、カテゴリレベルの推定におけるKeyPoseの結果を示しています。テストセットは、トレーニングセットには存在しなかった背景を使用しました。MAEは5.8mmから9.9mmまで変化しており、手法の精度を示していることに注意してください。

Method	Dense Fusion		Dense Fusion		KeyPost
Input Modality	Monocular RGBD + opaque depth		Monocular RGBD + real depth		Stereo RGB
Metrics	<2cm	MAE	<2cm	MAE	<2cm	MAE
Bottles	88.4	34.2	71.0	26.4	97.8	5.8
Bottles + cups	93.4	10.5	70.3	24.5	97.8	6.6
Mugs	72.8	17.6	41.5	26.5	92.6	9.9

カテゴリレベルのデータについて、KeyPoseと最先端のDenseFusionシステムの定量的な比較
DenseFusionには2つのバージョンの深度を提供します。1つは透明オブジェクトから、もう1つは不透明オブジェクトからです。 <2cmは、誤差が2cm未満の推定値のパーセントです。MAEは、キーポイントの平均絶対誤差(mm)です。

定量的な結果の完全な説明、およびアブレーション研究(ablation study:モデルを構成する要素を敢えて削除してその要素がどんな役割をしているか評価する事)については、論文、補足資料、およびKeyPoseのWebサイト(sites.google.com)を参照してください。

結論

本研究は、深度画像に依存することなく、RGB画像から透明な物体の3Dポーズを正確に推定できることを示しています。

Early fusionディープネットへの入力としてステレオ画像の使用を検証します。ネットワークは、ステレオ画像のペアからまばらな3Dキーポイントを直接抽出するようにトレーニングされています。

透明な物体にラベル付けした大規模なデータセットが利用可能になる事が、この分野の進歩に役立つことを期待しています。最後に、データセットに効率的にラベルを付けるために半自動の方法を使用しましたが、手動のラベル付けを廃止するために、将来の作業では自己教師学習アプローチを採用したいと考えています。

謝辞

共著者であるスタンフォード大学のXingyu Liu、Rico JonschkowskiとAnelia Angelovaに感謝します。また、Andy Zheng, Shuran Song, Vincent Vanhoucke, Pete Florence, 及びJonathan Tompsonを含むプロジェクトや論文の執筆中にディスカッションを通じて私たちを助けてくれた多くの人々に感謝します。