画像や動画関係の機械学習に使用できる大規模データセット一覧(2/2)

１．画像や動画関係の機械学習に使用できる大規模データセット一覧(2/2)まとめ

・動画や顔認証用、性別や年齢推定、ポーズ推定などの学習に使えるデータセットがある
・「モデルアーキテクチャ」「GPU」「データセット」の観点から性能を試算する必要がある
・性能指標だけ見ても実際の違いはわからないので買う前にクラウドで構成を試すと良い

２．動画や顔認証の学習に利用できるデータセット

以下、www.kdnuggets.comより「Open Source Datasets for Computer Vision」の意訳です。元記事は2021年8月、 Kevin Vuさんに投稿です。

私の方でデータセット関連で補足するとしたらOpen Imagesは有名どころなのではないかなぁ、と思います。
Open Images V6:新しいタイプの注釈localized narrativesが特徴(1/2)

また、Dataset Searchというデータセット用検索エンジンの存在も知っておいた方が良いです。
Dataset Searchで検索可能なオンラインデータセットの分析(1/2)

また、あまりタグの品質良くないのですが、Webbigdataのタグ検索でもGoogle系のデータセットはそれなりに捕捉出来ていると思います。
Webbigdata.jpのdatasetタグの検索結果

アイキャッチ画像のクレジットはPhoto by Mr Cup / Fabien Barral on Unsplash

３．MegaFaceとLFW (顔認識用)

Labeled Faces in the Wild(LFW)は、制約のない顔認識の問題を研究するために設計された顔写真のデータベースです。これには、Webからスクレイピングおよび検出された5,749人の13,233枚の画像が含まれています。追加の課題として、MLの研究者は、データセットに2つ以上の異なる写真がある1,680人の写真を使用できます。したがって、これは顔認証(face verification)にも使える公開ベンチマークであり、ペアマッチング()とも呼ばれます。同じ人物の少なくとも2つの画像が必要です)

MegaFaceは、大規模なオープンソースの顔認識(face recognition)トレーニングデータセットであり、商用の顔認識問題の最も重要なベンチマークの1つとして機能します。これには、672,057の個人の4,753,320個の顔面が含まれており、大規模なDLアーキテクチャのトレーニングに非常に適しています。すべての画像はFlickr(Yahooのデータセットです)から取得され、CreativeCommonsの下でライセンスされています。

４．IMDB-Wiki(性別と年齢の識別)

IMDB-Wikiは、トレーニング用に性別と年齢のラベルが付いた顔画像の最大かつオープンソースのデータセットの1つです。このデータセットには合計で523,051枚の顔画像があり、IMDBの20,284人の有名人から460,723枚の顔画像が取得され、ウィキペディアから62,328枚の顔画像が取得されています。

５．MS Coco(物体検出とセグメンテーション)

COCO(Common Objects in COntext)は、大規模な物体検出、物体セグメンテーション、およびキャプションデータセットです。データセットには、簡単に認識できる91のオブジェクトタイプの写真が含まれており、328,000の画像に合計250万のラベル付き実体があります。さらに、マルチオブジェクトラベリング、セグメンテーションマスク注釈、画像キャプション、キーポイント検出など、より複雑なCVタスク用のリソースを提供します。COCOは注釈の読み込み、解析、視覚化を支援する直感的なAPIによって十分にサポートされています。APIは複数の注釈形式をサポートしています。

６．MPII Human Pose(ポーズ推定)

このデータセットは、関節式の人間の姿勢推定(articulated human pose estimation)の評価に使用されます。これには、体の関節に注釈を付けた40,000人を超える人々を含む約25,000の画像が含まれています。ここでは、各画像がYouTubeビデオから抽出され、注釈のない前後のフレームが提供されます。全体として、データセットは410の人間の活動をカバーし、各画像には活動ラベルが付けられています。

７．Flickr-30k(画像キャプション)

これは、31,783枚の画像を説明する158,915件のクラウドソーシングで付与したキャプション(説明文)で構成される画像キャプションのデータセットです。これは、以前のFlickr8kデータセットの拡張です。新しい画像とキャプションは、日常の活動やイベントに携わる人々に焦点を当てています。

７．20BN-SOMETHING-SOMETHING(人間の行動のビデオクリップ)

このデータセットは、人間が日用品を用いて事前定義された基本的なアクションを実行していることを示すために、密にラベル付けしたビデオクリップの大規模なコレクションです。これは、多数のクラウドワーカーによって作成されたため、MLモデルは、現実の世界で発生する基本的なアクションをきめ細かく理解することができます。

このデータセットで補足されている一般的な人間の活動のサブセットは次のとおりです。

８．Barkley DeepDrive(自動運転車トレーニング用)

カリフォルニア大学バークレー校のBerkeley DeepDriveデータセットは、オブジェクトの境界ボックス、駆動可能領域、画像レベルのタグ付け、レーンのマーキング、フルフレームインスタンスセグメンテーションなど、さまざまな種類の注釈を含む10万を超えるビデオシーケンスで構成されています。さらに、データセットは、さまざまな地理的、環境的、および気象条件を表す際の幅広い多様性を特徴としています。

これは、自動運転車の堅牢なモデルをトレーニングするのに非常に役立ち、絶えず変化する道路や運転条件に驚かされる可能性が低くなります。

９．これらのデータセットに適したハードウェアとベンチマーク

言うまでもなく、これらのデータセットだけでは、高品質のMLシステムやビジネスソリューションを構築するのに十分ではありません。学術的またはビジネス上の問題に最適なソリューションを得るには、データセット、トレーニングハードウェア、および巧妙なチューニングとベンチマーク戦略の正しい選択を組み合わせる必要があります。

そのため、高性能GPUはほとんどの場合、これらのデータセットとペアになって、目的のパフォーマンスを提供します。GPUは、数千の小さなコンピューティングコアを使用して大量の並列計算を処理するために開発されました(主にビデオゲーム業界向け)。

また、ニューラルネットワークが数百エポックにわたってトレーニングしているときにこれらの計算に必要な高速データフロー処理(処理ユニットが計算結果を低速のメインメモリに格納したりデータを取得する)するための大きなメモリ帯域幅も備えています。これにより、コンピュータービジョンタスクの計算負荷を処理するための理想的な市販ハードウェアになります。

ただし、市場に出回っているGPUには多くの選択肢があり、この選択肢の多さは確かに平均的なユーザーを圧倒する可能性があります。

この点、何年にもわたって公開されてきたいくつかの優れた比較戦略があります。優れた比較を実践するためには、

(a)ディープニューラルネットワーク（DNN）アーキテクチャ
(b)GPU
(c)広く使用されているデータセット(前述のセクションで説明したものなど)

の複数の観点から考慮する必要があります。

・アーキテクチャ
ResNet-152、ResNet-101、ResNet-50、およびResNet-18
(https://pytorch.org/hub/pytorch_vision_resnet/)

・GPU
EVGA RTX 2080 ti、RTX 2080 ti、およびNVIDIA TITAN RTX

・データセット
ImageNet、CIFAR-100、およびCIFAR-10

訳注：GPUの選択肢に関しては一世代前のRTX 2000シリーズが紹介されているので少し古くなってしまっています。自作を考えている方は「人工知能学習用にパソコンを自作する際に知っておくべき事(2020年版)」も参考にしてみてください。また、性能指標だけ見ても実際の違いはわからないので各GPUでどのくらいの違いが出るのか買う前にクラウドで試すと良い、と言うのが私が考えるベストな方法です。

また、優れたベンチマークを実現するには、パフォーマンスの複数の側面を考慮する必要があります。