google dataset search:データセット検索用のサーチエンジン

入門/解説

1.google dataset search:データセット検索用のサーチエンジンまとめ

・Googleがインターネットで公開されているオープンなデータセットを検索する検索エンジンを公開
・国や地方公共団体など公的機関のデータだけでなく任意の団体や個人サイトのデータも検索可能
・データ提供者はschema.orgの定義にそった記述をする事でより検索されやすくする事ができる

2.google dataset searchとは?

以下、www.blog.googleより、「Making it easier to discover datasets」の意訳です。元記事の投稿は2018年9月5日、Natasha Noyさんによる投稿です。

2020年8月追記)正式版が2020年1月に公開され検索可能なデータセットの一覧についての解説記事が公開されました。

今日の世界では、多くの分野の科学者やジャーナリストがデータを取り扱うようになっています。インターネットには数千ものデータ保管庫があり、何百万ものデータセットにアクセスできます。世界各地の地方自治体や政府もデータを公開しています。このデータに簡単にアクセスできるようにするため、科学者、データジャーナリスト、データマニア、または他の誰もが自分の仕事やストーリーに必要なデータを見つけたり、知的好奇心を満たせるようにDataset Searchを立ち上げました。

データセットサーチでは、Google Scholar(論文検索エンジン)の仕組みと同様に、公的サイト、デジタルライブラリ、個人用ウェブページなど、どのような場所にホストされているデータであってもデータセットを見つけることができます。

データセット検索エンジンを充実させるために、私達はデータセットの提供者がGoogleボット(および他の検索エンジン)に彼らのページに含まれるデータセットをよりよく理解させるための記述方法についてガイドラインを作成しました。これらのガイドラインには、データセットの作成者、発行日、データの収集方法、データの使用条件などが含まれます。

私たちはガイドラインに沿って記述された情報を用いて同じデータセットの異なるバージョンがどこにあるかを分析したり、データセットに関する記述または議論が掲載されている出版物を見つける事ができます。

私たちのアプローチは、オープンな標準(schema.org)に基づいており、データを公開する人は誰でも、この標準に基づいてデータセットの説明を記述できます。規模の大小に関わらずデータセット提供者がこの共通標準を採用し、すべてのデータセットがこの堅牢なエコシステムの一部になる事を私達は推奨します。

今回の新しいリリースでは、ProPublicaなどの情報提供団体が提供するデータや政府が提供する公的データだけでなく、環境および社会科学などほとんどのデータセットを見つけることができます。より多くのデータレポジトリがschema.org標準を使用してデータセットを記述すると、データセット検索でユーザーが見つけるデータセットの多様性と適用範囲が拡大し続けます。

データセット検索は多言語で動作し、現在サポートされていない言語も近日追加される予定です。探しているものを入力するだけで、データセットリポジトリ提供サイトに公開されているデータセットへ誘導されます。

たとえば、毎日の天気予報を分析する場合は、データセット検索で次の入力を試してみてください。

NASAやNOAAからのデータセットと同様にHarvardのDataverseやInter-university Consortium for Political and Social Research (ICPSR:大学間の政治社会研究コンソーシアム)などの学術リポジトリからもデータを見つけることができます。 NOAAのチーフ・データ・オフィサーであるEd Kearnsは、このプロジェクトの強力な支援者であり、NOAAがこのツールで多数のデータセットを検索できるように支援しました。 「このタイプの検索エンジンは、公開されたデータを扱う科学コミュニティの多くの研究者にとって長い間夢でした」と彼は述べています。「このツールは、他のユーザーとデータを共有することを使命とするNOAAにとって、より広範なユーザーコミュニティにデータをアクセスしやすくするキーとなります。」

データセット検索サービスの立ち上げは、データをGoogle製品でさらに顕著に使いこなすための一連の取り組みの1つです。私たちは最近、検索エンジンで表形式でデータを簡単に見つける事ができるようにしました。データセットサーチと同じメタデータを表形式のデータに適用し、検索された問い合わせへの回答を検索結果に直接表示しています。

このイニシアチブはニュース組織やデータジャーナリストに重点を置いていますが、データセット検索は、科学データ、政府データ、ニュース組織が提供するデータのいずれを探している場合でも、より広い範囲のユーザーに役立ちます。

このような検索ツールは、データ提供者の皆さんが提供してくれるメタデータが優れていればより有用になります。多くの皆さんがオープンスタンダード(schema.org)な定義を使用してメタデータを記述し、ユーザーが探しているデータをより見つけられやすいようにしてくださることを期待しています。データセットを公開しても検索結果に表示されない場合は、デベロッパーサイトのインストラクションのアクセスしてください。ここには質問先やフィードバックを提供するリンクが含まれています。

3.google dataset search:データセット検索用のサーチエンジン感想

データセットはGoogle自身も先のIMGタグのキャプションから収集したConceptual Captionsや、youtube動画のYouTube-8Mなどを公開してくれていますが、世界には本当に様々なデータセットがあるので、それが論文同様に専用の検索画面ができたと言う事でなかなか便利そうです。なお、schema.orgは「データの説明をするためのタグを定義してくれている団体」と考えるとわかりやすいと思います。データセットのページ内に<データ関連書籍>よくわかるビッグデータ</関連データ書籍>等のHMTLやXMLで見慣れたタグでデータの内容を説明してやる事で、検索エンジンがデータの内容を整理しやすくなり、その結果、検索されやすくなると。

SEOの世界でもschema.orgで定義されているタグを埋め込むとSEO効果が出るので使われています。独自のデータセットを公開されている方は採用をご検討されると良いかと思います。

4.google dataset search:データセット検索用のサーチエンジン関連リンク

1)www.blog.google
Making it easier to discover datasets

2)toolbox.google.com
Google Dataset Search

3)developers.google.com
Dataset

コメント

タイトルとURLをコピーしました