ClearGrasp:透明な物体を認識可能な機械学習アルゴリズム(2/3)

１．ClearGrasp:透明な物体を認識可能な機械学習アルゴリズム(2/3)まとめ

・透明な表面は鏡面反射をするため、これを視覚的な手がかりとして深度推定を行っている
・ClearGraspは面法線推定、オクルージョン境界推定、透明な物体のマスクの3ネットワークで構成
・RGB-D 3Dカメラから出力される不透明な物体奥行情報の初期深度推定値を利用して精度を上げている

２．ClearGraspのアルゴリズム

以下、ai.googleblog.comより「Learning to See Transparent Objects」の意訳です。元記事の投稿は2020年2月12日、Shreeyak SajjanさんとAndy Zengさんによる投稿です。アイキャッチ画像のクレジットはPhoto by Aleks Dahlberg on Unsplash

また、テストセットとして、対応する本当の深度情報を付与した286の実世界の画像も含まれています。

現実世界の画像は、撮影風景内の各透明な物体を、同じ形状とポーズの着色された物体に置き換えるという骨の折れる作業によって撮影されました。画像は、さまざまな布とベニヤの背景を使用しており、撮影風景内に散らばったランダムで不透明な物体を含む、さまざまな屋内照明条件の下で撮影されています。これらには、合成トレーニングセットに存在する既知の物体と新規の物体の両方が含まれています。

左図：実世界の画像の撮影風景
中図：透明な物体をスプレー塗装された複製で置き換えたり、照明を変更してデータを作成しています。
右図：撮影されたデータを使って予測された奥行情報の例

チャレンジ
透明な物体を通して見えるゆがんだ背景は、典型的な深度推定アプローチを混乱させます。しかし、そこには物体の形状を暗示する手がかりもあります。透明な表面は鏡面反射(specular reflections)をしています。鏡面反射とは、明るい環境で明確に現れる鏡のような反射です。

これらの視覚的な手がかりはRGB画像で顕著であり、主に物体の形状の影響を受けるため、畳み込みニューラルネットワークはこれらの反射を使用して正確な表面法線を推測し、深度推定に使用する事ができます。

透明な物体の鏡面反射は、物体の形状に基づいて変化する特徴を持ち、面法線を推定するための強力な視覚的ヒントを提供します。

ほとんどの機械学習アルゴリズムは、単眼カメラよるRGBイメージから直接深度を推定しようとします。しかし、単眼による深度推定は、人間にとっても難しい作業です。

私達は平面的な背景で奥行を推定すると大きな誤差が発生する事を観察しました。もし、撮影風景内に透明な物体があると、奥行情報の推定誤差は更に悪化します。

従って、全てのジオメトリの深度を直接推定するのではなく、RGB-D 3Dカメラから出力される初期深度推定値を修正する方が実用的であると推測しました。こうすれば不透明な物体の表面から奥行情報を推定し、それを使用して、透明な物体の奥行情報を得る事ができます。

ClearGraspのアルゴリズム
ClearGraspは、3つのニューラルネットワークを使用します。1つは面法線を推定するネットワーク、もう1つはオクルージョン境界(奥行情報の不連続性)、透明な物体を特定してマスクするネットワークです。マスクは、透明な物体に属するすべての画素を削除するために使用され、これにより正しい深さ情報を持つ画素で満たす事ができます。

次に、既知の表面形状を深さ情報へ拡張するグローバル最適化モジュールを使用します。予測された表面法線を使用して物体の形状を再構成し、予測されたオクルージョン境界を使用して、異なる物体同士を分離します。

ClearGraspの概要
点群は出力深度を使って生成され、その表面法線で色付けされています。