カメラとモデルが動いている状況で奥行情報を予測(1/2)

  • 2019.05.25
  • AI
カメラとモデルが動いている状況で奥行情報を予測(1/2)

1.カメラとモデルが動いている状況で奥行情報を予測(1/2)まとめ

・従来の三角測量を使った手法ではカメラで奥行を予測するためにはカメラが静止している必要があった
・今回、カメラとカメラが写している人物が同時に移動していても奥行情報を推定可能な手法が発表
・ディープラーニングに人間のポーズや形状に関して事前知識を学習させることで実現している

2.三角測量が使えない状況で奥行を予測する方法

以下、ai.googleblog.comより「Moving Camera, Moving People: A Deep Learning Approach to Depth Prediction」の意訳です。元記事は2019年5月23日、Tali DekelさんとForrester Coleさんによる投稿です。

人間の持つ視覚システムは、二次元の平面的な視覚情報から三次元の現実世界の構造を理解する優れた能力を持っています。

複数の物体が動く複雑な状況でも、人間は物体までの位置と奥行の情報を解釈し維持することができます。コンピュータビジョンの分野では、2次元画像データから位置情報を計算する事によって人間の能力と同様の機能を実現する方法について長い間研究してきましたが、信頼性の高い堅牢なシステムを作り上げる事は依然として困難な場合が多くあります。

カメラと、カメラが撮影している風景内の物体の両方が自由に動いている場合、この作業は特に困難になります。これは、三角測量に基づく従来の立体情報再構成アルゴリズムを混乱させるのです。何故なら、このアルゴリズムは、同じ物体を少なくとも2つの異なる視点から同時に観察できると仮定しているためです。

この仮定を満たすには、マルチカメラアレイ(GoogleのJumpなど)、またはカメラが移動しても風景が動かずに静止している事が必要になります。その結果、ほとんどの既存手法は、動いている物体を除外するか(それらの奥行情報にゼロを割り当てる)、またはそれらを無視(不正確な奥行情報をもたらします)する事が必要になります。


左:従来のステレオ設定は、少なくとも2つの視点が同時にシーンを捉えることを前提としています。右:私達はカメラと被写体の両方が動いている状況でこれを解決する事を検討します。

論文、「Learning the Depths of Moving People by Watching Frozen People」では、カメラと被写体の両方が自由に動いている普通の動画から深度マップを生成することができるディープラーニングベースのアプローチを適用することによって、この根本的な課題に取り組みます。

このモデルは、データから人間のポーズや形状に関して事前知識を学習することで、三角測量手法で奥行を測定する事を回避します。

映像内の奥行情報を予測するために機械学習を使用する学習ベースのアプローチは最近急増していますが、今回の研究は、カメラと人間が同時に動いている状況に学習ベースのアプローチを適用させた最初のケースです。

この研究では、特に人間に焦点を合わせています。人間は拡張現実の世界でも3Dビデオの世界でも興味深いターゲットとして関心を集めるためです。


私達のモデルでは、撮影風景内の人物とカメラの両方が自由に動いている通常のビデオ動画(左)から奥行情報(右、明るさはカメラに近い事を意味します)を予測します。

トレーニングデータの入手
私たちは、教師付き学習で、奥行情報予測モデルを訓練しました。学習元のデータは、移動するカメラで撮影された自然なシーンのビデオで、正確な深度情報が付随している必要があります。

重要な問題は、そのようなデータをどこから入手するかです。

学習用データを合成して生成するのは、沢山のシーンと人間の自然なしぐさを精巧にモデリングし、レンダリングする必要があり、これは困難です。更に、そのような合成データを使って訓練されたモデルは、現実世界の本当の風景に一般化させる事が困難になってしまう可能性があります。

別のアプローチは、RGBDセンサ(例えばマイクロソフトのKinnect)を用いて実際のシーンを記録することですが、Kinnectのような深度センサは通常、屋内環境に使用が限定されており、それらを使って3Dデータを再構成する事も困難です。

3.カメラとモデルが動いている状況で奥行情報を予測(1/2)関連リンク

1)ai.googleblog.com
Moving Camera, Moving People: A Deep Learning Approach to Depth Prediction

2)arxiv.org
Learning the Depths of Moving People by Watching Frozen People