Dataset Searchで検索可能なオンラインデータセットの分析(1/2)

ビッグデータ

1.Dataset Searchで検索可能なオンラインデータセットの分析(1/2)まとめ

・Dataset Searchは2018年にベータ版、2020年1月に完全版がリリースされた
・現在4,600を超えるサイトからの3,100万を超えるデータセットが検索可能
・上位登録カテゴリは社会科学、地球科学、生物学で全体の60%近くを占めている

2.Dataset Searchに登録されているデータの傾向

以下、ai.googleblog.comより「An Analysis of Online Datasets Using Dataset Search (Published, in Part, as a Dataset)」の意訳です。元記事の投稿は2020年8月25日、Natasha NoyさんとOmar Benjellounさんによる投稿です。

一生懸命資料を検索している感が出ているアイキャッチ画像のクレジットはPhoto by Mael BALLAND on Unsplash

インターネットには数千万のデータセットがあります。その内容はセンサーで収集したデータや政府による記録、科学実験の結果やビジネスレポートまで様々です。

実際、皇帝ペンギンの食生活やリモートワーカーが住んでいる場所など、想像できるほとんどすべてのデータセットがあります。

2年以上前、私たちはこれらの数百万のデータセットと数千の保管庫に対する単一の入り口となる検索エンジンを設計する取り組みに着手しました。その結果がDataset Searchで、2018年にベータ版でリリースされ、2020年1月に完全版がリリースされました。

Dataset Searchは、データへのアクセスを容易にするだけでなく、schema.orgに登録されているデータ構造を使用して、データセットの構造や内容に対してメタデータを付与し、検索を容易にします。

現在、Dataset Searchが検索対象としている全資料には、4,600を超えるインターネットドメインからの3,100万を超えるデータセットが含まれています。これらのデータセットの約半分は(企業を意味する).comドメインからのものですが、(団体組織を意味する).orgおよび政府ドメインもよく含まれています。以下のグラフは、過去2年間のDataset Searchの成長を示しています。現在、Web上に存在するデータセットのどの程度がDataset Searchに含まれているかはわかりませんが、その数は着実に増え続けています。


Dataset Searchによって索引が付与されたデータセットの数の増加

Dataset Searchで利用できるようになったデータセットの範囲と有用性をよりよく理解するために、2020年の国際セマンティックウェブ会議で承認された論文「Google Dataset Search by the Numbers」を公開しました。ここでは、利用可能なデータセットの概要を提供し、それらの分析から生じる基準と洞察を提示し、将来の科学的データセットを公開するためのベストプラクティスを提案します。

他の研究者がメタデータを使用して分析とツールを構築できるようにするために、データのサブセットを公開しています。

様々な題材のデータセット
データセットがカバーするトピックの分布を決定するために、データセットのタイトルと説明、およびデータセットWebページ上の他のテキストに基づいて、研究カテゴリを推測します。 最も一般的な2つのトピックは、地球科学(geosciences)と社会科学(social sciences)であり、データセットの約45%を占めています。

生物学(Biology)約15%で3位、その他コンピュータサイエンス、農業、化学など、他のトピックがほぼ均等に分布しています。


データセットのトピックの分布

Dataset Search開発する際の最初の取り組みでは、Dataset Searchへのデータ登録を起動に乗せるため、鍵となる特定のコミュニティに手を差し伸べました。最初は地球科学と社会科学に焦点を当てていましたが、それ以降、データ登録を有機的に成長させることができました。初期段階に連絡を取り合ったコミュニティに関連する分野がまだ登録データの大部分を占めている事に驚きました。

彼らの初期の関与は確かにその分野における流行に貢献していますが、コミュニティ間の文化の違いなど、他の要因が関与している可能性があります。例えば、地球科学は、データの検索可能性、アクセス可能性、相互運用可能性、再利用可能性(fairsharing.org)に努めており、データセットへのアクセスを容易にする事に特に成功しています。

データを簡単に引用可能および再利用可能にする
科学分野の研究者の間では、データセットを利用可能にし、その使用に関連する詳細を公開し、使用時に引用することが重要であるという意識が高まっています。多くの資金提供機関や学術出版社は、データの適切な公開と引用を必要としています。

Nature Scientific Dataなどの査読付きジャーナルは、貴重なデータセットの公開に特化しており、DataCiteなどの取り組みにより、デジタルオブジェクト識別子(DOI:Digital Object Identifiers)が提供されています。

識別子解決サービス(identifiers.orgなど)は永続的で、参照できない状態の論文に対する識別子も提供しており、簡単に引用する事を可能にします。これは、データセットを科学分野で広く利用できるようにするための鍵となります。残念ながら、Dataset Searchに含まれるデータセットの約11%(約3百万)だけがDOIを持っていることがわかりました。

オープンソースとして公開されたデータセットに含める資料はこのDOIを持つ資料から選択されました。このコレクションのデータセットのDOIの約230万は、datacite.orgとfigshare.comの2つのサイトから取得されています。

Domain Datasets with DOIs
figshare.com 1,301K
datacite.org 1,070K
narcis.nl 118K
openaire.eu 100K
datadiscoverystudio.org 72K
osti.gov 63K
zenodo.org 50K
researchgate.net 41K
da-ra.de 40K

データを公開しているパブリッシャーはschema.orgで定義されているメタデータで属性を指定する事でデータセットのアクセス要件を指定できます。これには、ライセンスの詳細や、データセットが無料でアクセス可能かどうかを示す情報が含まれます。データセットの34%だけがライセンス情報を指定しますが、ライセンスが指定されていない場合、ユーザーはデータの再利用が許可されているかどうかについて何も想定できません。従って、ライセンス情報を追加し、理想的には、可能な限りオープンなライセンスを追加すると、データの再利用性が大幅に向上する事になります。

3.Dataset Searchで検索可能なオンラインデータセットの分析(1/2)関連リンク

1)ai.googleblog.com
An Analysis of Online Datasets Using Dataset Search (Published, in Part, as a Dataset)

2)datasetsearch.research.google.com
Google Dataset Search

3)research.google
Google Dataset Search by the Numbers

4)www.kaggle.com
Dataset Search: metadata for datasets

5)fairsharing.org
FAIRsharing

6)search.google.com
構造化データ テストツール

コメント

タイトルとURLをコピーしました