Scanned Objects dataset:日用品を3Dスキャンしたデータセット(1/2)

１．Scanned Objects dataset:日用品を3Dスキャンしたデータセット(1/2)まとめ

・コンピュータビジョンとロボット工学の進歩は多種多様なデータによって可能に必要となる
・データセットの作成には多大な労力が必要だがそれでも汎用性の高いデータを作る事は困難
・1000以上の3Dスキャンされた家庭用品のコレクションScanned Objectsデータセットを発表

２．Scanned Objects datasetとは？

以下、ai.googleblog.comより「Scanned Objects by Google Research: A Dataset of 3D-Scanned Common Household Items」の意訳です。元記事は2022年6月14日、Laura DownsさんとAnthony Francisさんによる投稿です。

アイキャッチ画像はDALL·E Megaの学習途中版で生成した3D-Scanned Common Household Items

コンピュータビジョンとロボット工学における最近の多くの進歩は、深層学習に依存していますが、深層学習モデルをトレーニングするには、新しいシナリオに汎化するために、多種多様なデータが必要です。

歴史的に、コンピュータビジョン用の深層学習は、Webから収集した数百万規模の画像データセットに依存しており、その例として、ImageNet、Open Images、YouTube-8M、COCOなどが挙げられます。

しかし、これらのデータセットの作成には多大な労力が必要であり、また、ラベリング付けの際にエラーが発生し、学習進捗の認識が歪んでしまう可能性があります。さらに、この手法は、任意の3次元形状や実世界のロボットデータに対して容易に一般化することができません。

実際のロボットを使ったデータ収集は非常に便利ですが、規模拡大が難しく、ラベル付けも困難です(図はBC-Zより)

Gazebo、MuJoCo、Unityなどのツールを使ってロボットや環境をシミュレーションすることで、これらのデータセットに内在する多くの制限を緩和することができます。しかし、シミュレーションは現実世界の近似に過ぎません。ポリゴン(polygons)やプリミティブ(primitives)から作られた手作りのモデルは、現実世界の物体をうまく取り扱えない事がよくあります。

現実世界の環境の3Dスキャンから直接シーンを構築したとしても、そのスキャン内の可動物体は固定された背景風景のように振る舞い、現実世界の物体のように反応することはありません。このような課題があるため、ディープラーニングに必要な多様性を提供するために物理シミュレーションや視覚シミュレーションに組み込める3D物体の高品質モデルを持つ大規模なライブラリはほとんど存在しないのです。

論文「Google Scanned Objects: A High-Quality Dataset of 3D Scanned Household Items」では、1000以上の3Dスキャンされた一般的な家庭用品の精選コレクションであるScanned Objectsデータセットを作成し、このニーズに対応するための取り組みについて説明しています。Scanned Objectsデータセットは、GazeboやPyBulletロボットシミュレータなど、SDF(Simulation Description Format)モデルを読み込むツールで使用可能です。Scanned Objectsは、Gazeboシミュレータと互換性のあるモデルのためのオープンソースホスティング環境であるOpen Roboticsでホストされています。

歴史

Googleのロボット研究者は、2011年に物体のスキャンを開始し、ロボットが環境中の物体を認識・把握するために、一般家庭用品の高忠実度な3Dモデルを作成しました。

しかし、3Dモデルには、物体の認識やロボットの把持以外にも、物理シミュレーションのためのシーン構築やエンドユーザー・アプリケーションのための3Dオブジェクトの視覚化など、多くの用途があることが明らかになりました。

そこで、このScanned Objectsプロジェクトは、Google社内に3D体験を大規模に提供するために拡張され、従来の商用グレードの製品写真よりも効率的でコスト効果の高いプロセスによって、家庭用品の3Dスキャンを大量に収集することに成功しました。

Scanned Objectsは一気通貫の取り組みで、3Dスキャン用に規模を拡大して物体を収集する事から、新しい3Dスキャンハードウェアの開発、効率的な3Dスキャンソフトウェア、品質保証のための高速3Dレンダリングソフトウェア、Webやモバイルビューア用の専用フロントエンドといったほぼすべての処理段階で革新を行いました。

また、3D物体との効果的な総合作用を実現するために、ヒューマンコンピュータインタラクションの研究も行いました。

スキャン用に取得した物体

これらのオブジェクトモデルは、Everyday Robotsプロジェクトの3Dビジュアライゼーションに有用であることが判明し、トレーニングのためのsim-to-realギャップを埋めるためにモデルを使用し、後にRetinaGANとRL-CycleGANとして発表された研究です。

これらの初期の3Dスキャンの取り組みを基に、2019年には、スキャンしたオブジェクトのデータセットの外部バージョンの準備と、以前の3D画像のセットを把握可能な3Dモデルに変換することを開始しました。

物体のスキャニング

高品質のモデルを作成するために、制御され、慎重に較正された条件下で、物体の画像を複数の方向から撮影するためのスキャン装置を作りました。このシステムは、形状検出用の2台のマシンビジョンカメラ、高品質なHDRカラーフレーム抽出用のデジタル一眼レフカメラ、パターン認識用のコンピュータ制御のプロジェクターで構成されています。スキャン装置には、カメラ画像から対象物に投影される光のパターンで3D形状を推定する構造化光技術(structured light technique)が使用されています。