ViP-DeepLab：深度推定とパノプティックセグメンテーションを動画に対して同時に適用(1/2)

１．ViP-DeepLab：深度推定とパノプティックセグメンテーションを動画に対して同時に適用(1/2)

・人間は二次元画像である写真から三次元環境に関する視覚情報を非常に簡単に取得できる
・自動運転などを実現するためには同様に平面画像から三次元物体の位置の特定や識別が必要
・単眼深度推定とビデオパノプティックセグメンテーションを同時に実行すると効率的

２．ViP-DeepLabとは？

以下、ai.googleblog.comより「Holistic Video Scene Understanding with ViP-DeepLab」の意訳です。元記事の投稿は2021年4月27日、Siyuan QiaoさんとLiang-Chieh Chenさんによる投稿です。

原題にあるホリスティック(holistic)は、「全体論的な」の意味で、日本語でも教育やヘルスケアの分野で見かける事のある単語です。「心と体」「論理と直感」「異なる分野の知識」「異なる食べ物」などの様々な物事同士の「関わり/繋がり」を追求していく姿勢の意味で使われています。

AI分野におけるホリスティックは、２次元画像内の様々な「関わり/繋がり」を認識する意味で使われており、それらを組み合わせて３次元構成を復元させるのが今回のお話です。

holistic vibes(ホリスティックな雰囲気)で検索すると出てきた「人と自然の関わり」的なイメージなのでしょうか、ホリスティックなイメージがイマイチ自分の中で掴めていない感があるなと思いつつ、選択したアイキャッチ画像のクレジットはPhoto by lucas Favre on Unsplash

人間は二次元画像である写真から三次元環境に関する視覚情報を非常に簡単に取得できます。物体の識別、実体のサイズの決定、三次元空間でのレイアウトの再構築などを、二次元画像に含まれる限られた信号を使用して行うことができます。

この能力は、一般に逆投影問題(inverse projection problem)として知られており、網膜像(retinal images)から網膜刺激の源(sources of retinal stimulation)へのあいまいなマッピングを再構築することを指します。

自動運転などの現実世界で使われるコンピュータビジョンアプリケーションは、これらの機能に大きく依存して三次元物体の位置の特定や識別を行います。これを実現するためには、2D画像に投影された各3Dポイントの空間位置、セマンティッククラス、および実体ラベルを推測するための視覚モデルが必要です。

画像から3D世界を再構築する機能は、単眼深度推定(単一画像から奥行情報を予測)とビデオパノプティックセグメンテーション(ビデオ内の物体に対してインスタンスセグメンテーションとセマンティックセグメンテーションを実行して統合)の2つの互いに素なコンピュータビジョンタスクに分解できます。

ただし、一般的な研究では通常、各タスクを個別に研究しています。これらのタスクを統合されたコンピュータービジョンモデルとして、一緒に取り組むことで、複数のタスク間で計算を共有する事が出来、展開が容易になり、効率が向上する可能性があります。

CVPR 2021で受理された「ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentatio」では、深度とビデオパノプティックセグメンテーションを同時に予測するモデルの潜在的な価値を紹介します。

本研究では、単眼深度推定とビデオパノプティックセグメンテーションに同時に取り組むことを目的とした、深度認識ビデオパノプティックセグメンテーション(depth-aware video panoptic segmentation)という新しいタスクを提案します。

この新しいタスクでは、深度認識ビデオパノプティック品質(DVPQ:Depth-Aware Video Panoptic Quality)と呼ばれる新しい評価基準を伴う2つの派生データセットを提示します。

この新しい評価基準には、深度推定とビデオパノプティックセグメンテーションの評価基準が含まれており、2つのサブタスクに同時に取り組む視覚モデルが必要です。この目的のために、深度とビデオ予測用のネットワークブランチを追加して、Panoptic-DeepLabを拡張し、ViP-DeepLabを作成しました。

ViP-DeepLabは、画像平面上の各画素のビデオパノプティックセグメンテーションと単眼深度推定を共同で実行する統合モデルです。サブタスクのいくつかで、学術データセットを使って最先端のパフォーマンスを実現しました。以下のビデオは、新しいタスクを示し、ViP-DeepLabによる結果を示しています。

ViP-DeepLabによって得られた深度認識ビデオパノプティックセグメンテーションの結果
左上：入力として使用されるビデオフレーム
右上：ビデオパノプティックセグメンテーションの結果
左下：推定深度
右下：再構築された3Dポイント
各オブジェクトインスタンスには、pedestrain_1、pedestrain_2などの一意で時間的に一貫したラベルがあります。入力画像はCityscapesデータセットからのものです。