画像や動画関係の機械学習に使用できる大規模データセット一覧(1/2)

データセット

1.画像や動画関係の機械学習に使用できる大規模データセット一覧(1/2)まとめ

・画像関連のニューラルネットワークをトレーニングするには大規模画像データセットが必要
・ImageNetは最もよく知られている画像データセットで画像研究のゴールドスタンダード
・CIFAR-10はすばやく結果比較する際に機械学習研究で最も良く使われるデータセット

2.コンピュータービジョンの学習に利用できるデータセットのリスト

以下、www.kdnuggets.comより「Open Source Datasets for Computer Vision」の意訳です。元記事は2021年8月、 Kevin Vuさんに投稿です。

8月のシルバーランク記事との事で元サイトでもよく読まれていた記事です。確かに良く文献に出て来るデータセットは何となくは知っていても「これを学習させたい時に良く使われるデータセットはこれ」という感じのまとめはありがたいですね。

アイキャッチ画像のクレジットはPhoto by Mr Cup / Fabien Barral on Unsplash

高品質でノイズのない大規模なデータセットが利用可能な事は、コンピュータービジョンアプリケーション用の複雑なディープニューラルネットワークモデルをトレーニングするために重要です。

多くのオープンソースデータセットは、画像分類、ポーズ推定、画像に説明文を付与する画像キャプション、自動運転、および物体セグメンテーションで使用するために開発されています。これらのデータセットは、パフォーマンスを最適化するために、適切なハードウェアおよびベンチマーク戦略と組み合わせる必要があります。

コンピュータービジョン(CV:Computer Vision)は、人工知能(AI:Artificial Intelligence)および機械学習(ML:Machine Learning)領域内で最もエキサイティングな分野の1つです。これは、多くの最新のAI/MLパイプラインの主要コンポーネントであり、ほぼすべての業界を変革し、組織が機械や業務システムの動かし方を根本的に変革することを可能にします。

学術的には、CVは何十年にもわたってコンピュータサイエンスの確立された分野であり、何年にもわたって、この分野を改善するために多くの研究が行われてきました。しかし、ディープニューラルネットワークの使用は最近この分野に革命をもたらし、成長を加速するための新しい燃料となっています。

コンピュータビジョンには、次のようなさまざまな応用分野があります。

・自動運転
・医療用画像分析と診断
・撮影風景内の物体検出や理解
・画像に自動で説明文を付与
・ソーシャルメディアで写真/顔に自動でタグ付け
・ホームセキュリティ
・製造業における欠陥品の特定と品質管理

本記事では、CVタスク用の最先端のMLシステムをトレーニングするために、ディープラーニング(DL:Deep Learning)の領域で使用される最も一般的で効果的なデータセットのいくつかについて説明します。

適切なオープンソースデータセットを慎重に選択する事

画像およびビデオファイルでモデルをトレーニングすることは、データを大量に消費する重大な作業です。画像ファイルは一枚であっても多次元なデータです。数メガバイトのデジタルデータ内には「知的な画像分析」に用いられる「洞察」のごく一部のみが含まれます。

画像データとは対照的に、例えば同等のサイズの売上高データは、計算機資源に同等のコストをかければ、MLアルゴリズムについてより多くの洞察を得ることができます。この事実は、最新のCVパイプラインに必要なデータとコンピューティングの規模について話しているときに覚えておく価値があります。

その結果、ほとんどすべての場合、数百(または数千規模)の画像では、CVタスク用の高品質のMLモデルをトレーニングするのに十分ではありません。最近のほとんどすべてのCVシステムは、複雑なDLモデルアーキテクチャを使用しており、十分な数の慎重に選択されたトレーニング事例(つまりラベル付き画像)が提供されない場合、モデルの学習は不十分なままになります。

したがって、堅牢で一般化可能な製品としての使用に耐える品質のDLシステムでは、トレーニングのために何百万もの慎重に選択された画像が必要になることがよくあります。また、ビデオ分析の場合、学習用データセットの選択と編集タスクは、多数のビデオストリームから取得されたビデオファイルまたはフレームの動的な性質を考えると、より複雑になる可能性があります。

以下では、最も人気のあるもののいくつかのデータセットを紹介します。(静止画像とビデオクリップの両方を対象にしています)

コンピュータビジョンモデル用の人気のあるオープンソースデータセット

すべてのデータセットがすべての種類のCVタスクに等しく適しているわけではありません。一般的なCVタスクは次のとおりです。

・画像分類(Image classification)
・物体検出(Object detection)
・オブジェクトのセグメンテーション(Object segmentation)
・マルチオブジェクトアノテーション(Multi-object annotation)
・画像キャプション(Image captioning)
・人間の姿勢推定(Human pose estimation)
・ビデオフレーム分析(Video frame analytics)

これらのカテゴリのほとんどをカバーする人気のあるオープンソース画像データセットのリストを以下に示します。

1.ImageNet(最もよく知られている画像データセットです)

ImageNetは、世界中の研究者が簡単に利用できる画像データベースを提供するための継続的な研究活動です。これはおそらく、世界で最もよく知られている画像データセットであり、研究者と実践者の両方からゴールドスタンダードとして引用されています。

このプロジェクトは、画像と視覚の研究分野でますます高まる感情、つまりより多くのデータの必要性に触発され、WordNetの階層に従って編成されています。

WordNetの意味のある各概念は、複数の単語または単語フレーズで記述されている可能性があり、「同義語セット(synonym set)」または「シンセット(synset)」と呼ばれます。WordNetには100,000を超えるsynsetがあります。同様に、ImageNetは、各synsetを説明するために平均1000枚の画像を提供することを目的としています。

ImageNet大規模視覚認識チャレンジ(ILSVRC:ImageNet Large Scale Visual Recognition Challenge)は、大規模な物体検出と画像分類のためのアルゴリズム(大学または企業の研究グループのチームによって提出された)を評価する世界的な年次コンテストです。

大局的な視点からの本コンテストの動機の1つは、非常に費用のかかるラベル付け作業を利用して、研究者がさまざまな物体検出の進捗状況を比較できるようにすることです。もう1つの動機は、検索と注釈付けのための大規模な画像インデックス作成のためのコンピュータービジョンの進捗状況を測定することです。これは、機械学習の全分野で最も話題になっている毎年恒例のコンテストの1つです。

2.CIFAR-10(初心者向け)

CIFAR-10は、この分野の初心者が機械学習とコンピュータービジョンアルゴリズムをトレーニングするために良く使用する画像コレクションです。また、トレーニングやハイパーパラメータ調整プロセスに不当な計算負荷をかけることなく、特定のアーキテクチャの弱点と強みを捕捉するため、アルゴリズムをすばやく比較する際に機械学習研究で最も良く使われるデータセットの1つです。

10種類のクラスの60,000、32×32カラー画像が含まれています。クラスは、飛行機、車、鳥、猫、鹿、犬、カエル、馬、船、トラックを表しています。

3.画像や動画関係の機械学習に使用できる大規模データセット一覧(1/2)関連リンク

1)www.kdnuggets.com
Open Source Datasets for Computer Vision

2)image-net.org
ImageNet

3)www.cs.toronto.edu
CIFAR-10 and CIFAR-100 datasets

4)vis-www.cs.umass.edu
Labeled Faces in the Wild

5)megaface.cs.washington.edu
MegaFace Dataset

6)data.vision.ee.ethz.ch
IMDB-WIKI – 500k+ face images with age and gender labels

7)cocodataset.org
COCO – Common Objects in Context

8)human-pose.mpi-inf.mpg.de
MPII Human Pose Dataset

9)hockenmaier.cs.illinois.edu
Flickr30K

10)cv.gluon.ai
Prepare the 20BN-something-something Dataset V2

11)www.bdd100k.com
Berkeley DeepDrive dataset

タイトルとURLをコピーしました