データセット

入門/解説

Agile Data Labeling:それが何であり、なぜそれが必要なのか?(3/3)

1.Agile Data Labeling:それが何であり、なぜそれが必要なのか?(3/3)まとめ ・複数の方法/ツール、アウトソース先を組み合わせて最適なやり方を探る事が重要 ・反復的なアプローチを採用し、量より質を優先した多様性のあるラ...
入門/解説

Agile Data Labeling:それが何であり、なぜそれが必要なのか?(2/3)

1.Agile Data Labeling:それが何であり、なぜそれが必要なのか?(2/3)まとめ ・データに注釈/ラベルを付ける作業は労力がかかるが第三者にアウトソーシングするのも困難 ・会ったことのない完全に見知らぬ人に作業内容を一から...
入門/解説

Agile Data Labeling:それが何であり、なぜそれが必要なのか?(1/3)

1.Agile Data Labeling:それが何であり、なぜそれが必要なのか?(1/3)まとめ ・変化への対応を是とするアジャイル型開発手法はソフトウェア開発に生産性革命をもたらした ・MLプロジェクトにとってデータ整備は重要だが生産性...
データセット

画像や動画関係の機械学習に使用できる大規模データセット一覧(2/2)

1.画像や動画関係の機械学習に使用できる大規模データセット一覧(2/2)まとめ ・動画や顔認証用、性別や年齢推定、ポーズ推定などの学習に使えるデータセットがある ・「モデルアーキテクチャ」「GPU」「データセット」の観点から性能を試算する必...
データセット

画像や動画関係の機械学習に使用できる大規模データセット一覧(1/2)

1.画像や動画関係の機械学習に使用できる大規模データセット一覧(1/2)まとめ ・画像関連のニューラルネットワークをトレーニングするには大規模画像データセットが必要 ・ImageNetは最もよく知られている画像データセットで画像研究のゴール...
データセット

C4_200M:文法エラー訂正用の合成データセット(2/2)

1.C4_200M:文法エラー訂正用の合成データセット(2/2)まとめ ・タグ付き破損モデルは再現したいエラーの種類をエラータイプタグで入力できる ・そのため現実世界で実際に見られる書き込みエラーの分布を再現する事ができる ・英語を母国語と...
データセット

C4_200M:文法エラー訂正用の合成データセット(1/2)

1.C4_200M:文法エラー訂正用の合成データセット(1/2)まとめ ・文法エラー修正とは、正しい文法やスペルを提案するため書き込みエラーをモデル化する試み ・近年GECの品質は大幅に向上したがこれは「翻訳」タスクを真似たアプローチをした...
データセット

KYD:データセット探索用の新ツール(2/2)

1.KYD:データセット探索用の新ツール(2/2)まとめ ・画像説明文内の「男性のまなざし」について調査し従来の研究結果を裏付ける事ができた ・高齢者は現実世界の集団内での存在に比べてデータセット内で過小評価されている事も判明 ・KYDを使...
データセット

KYD:データセット探索用の新ツール(1/2)

1.KYD:データセット探索用の新ツール(1/2)まとめ ・Know Your Data(KYD)はデータ内の性別と年齢に関する偏見を見つける事ができるツール ・例えば画像の説明文が「男性」や「女性」で性別による偏りを見つける事ができる ・...
データセット

TimeDialとDisfl-QA:時の概念と流暢でない口語表現に対応するためのNLPデータセット(2/2)

1.TimeDialとDisfl-QA:時の概念と流暢でない口語表現に対応するためのNLPデータセット(2/2)まとめ ・非流暢さは本質的に音声現象であり、音声認識システムでテキスト出力時に最も影響がある ・しかし、非流暢さの概念を含んでま...
データセット

TimeDialとDisfl-QA:時の概念と流暢でない口語表現に対応するためのNLPデータセット(1/2)

1.TimeDialとDisfl-QA:時の概念と流暢でない口語表現に対応するためのNLPデータセット(1/2)まとめ ・自然な会話の中には、流暢でない発話の中断、感嘆、繰り返し、再開、訂正などが含まれる ・また会話を理解するには、イベント...
データセット

ニューラル機械翻訳におけるジェンダーバイアスを研究するためのデータセット(2/2)

1.ニューラル機械翻訳におけるジェンダーバイアスを研究するためのデータセット(2/2)まとめ ・Wikipedia Biographiesによって機械翻訳の性別バイアス削減度合を評価する事が可能になった ・文脈を意識するモデル(contex...