1.Google検索にDataset Search機能が一部追加まとめ
・Google検索でデータを検索するとデータセットの説明が書かれたページを強調する専用のセクションが表示されるようになった
・データセット専用の検索エンジンであるDataset Searchがこの機能を支えており4500万以上のデータセットを索引化している
・データセットの提供者が、データセットを説明するウェブページに、機械的に読み取り可能なメタデータを設置する事が必要
2.Dataset Searchとは?
Dataset Searchはデータセットを検索する際に使う事ができる専用のWebサービスですが、この度、Google検索実行時にもデータを探していると判断された場合はその内容が一部表示されるようになったとの事。
しかし、考えてみるとDataset Searchのように主導権を取って、仕様を確定していくのって結構大変で重大な役目ではありますね。「データセットを見つけやすいようにデータセット検索専門の検索エンジンを作成します。皆さんが指定の構造化データを置いて頂ければ、Dataset Searchで見つける事ができるので、皆さんのWebサイトのアクセス数向上やデータセットの認知度もあがりますよ~」とやってくれたので、データセットの検索がしやすくなりました。
AI検索時代後は、Google検索=ごんぎつね的な、ゴン、お前だったのか、私のWebサイトに送客したり、インターネットを使いやすくしようと努力してくれていたのは。コアアップデートで変なサイトを上位に持ってきたり、あれだけ押していたAMPを放り投げたり、イタズラばかりしているって思っていたよ。って皆が思うのかもしれません。
アイキャッチ画像はstable diffusionのカスタムモデルによる生成で、データの大海原を探検しているイメージ
データセットへのアクセスは、科学研究、ビジネス分析、公共政策など、さまざまな業種の今日の取り組みに不可欠です。科学界や公共部門の様々なレベルにおいて、再現性と透明性は進歩に不可欠であり、データの共有は極めて重要です。
例えば、米国では、最近の新しい政策により、連邦政府が資金提供したすべての研究の成果(データや統計情報、出版物など)に自由かつ公平にアクセスすることが義務付けられています。
このような統計的な詳細情報を含むコンテンツの発見を容易にし、ウェブ全体から情報を抽出するために、Googleはデータセットの検索を容易にするようになりました。上位3つの検索結果(下記参照)のいずれかをクリックしてデータセットのページを表示するか、”More datasets “をクリックしてさらに検索することができます。以下はその一例です:
Google検索でデータセットを検索すると、データセットの説明が書かれたページを強調する専用のセクションが表示されます。さらに「More datasets」をクリックし、「Dataset Search」に進むと、より多くのデータセットに触れることができます。
Powered by Dataset Search
データセット専用の検索エンジンであるDataset Searchがこの機能を支えており、13,000以上のウェブサイトから4500万以上のデータセットを索引化しています。データセットは、政府系、科学系、商業系など、さまざまな分野やトピックをカバーしています。Dataset Searchでは、データセットに関する重要なメタデータと、データのプレビューが表示されます(利用可能な場合)。また、データセットを保管しているデータリポジトリへのリンクも表示されます。
Dataset Searchは、主にschema.org構造化データを含むウェブ上のデータセットページをインデックス化します。schema.orgのメタデータは、ウェブページの作成者がページ内で意味的情報(ページ上の実体とその属性)を記述することを可能にします。
データセットのページでは、schema.orgのメタデータによって、データセットの説明、ライセンス、時間的・空間的範囲、ダウンロード可能なフォーマットなどの主要な要素が記述されています。Dataset Searchは、このようなメタデータを集約し、簡単にアクセスできるようにするだけでなく、ウェブページから直接送られてくるメタデータを正規化し、整合させます。
データセットの作成者または提供者が、自分のデータセットを検索で見つけてもらいたい場合は、データセットを発見できるような方法で公開し、他の人がそのデータを再利用できる方法を明記しておく必要があります。具体的には、データセットを説明するウェブページに、機械的に読み取り可能なメタデータを設置できている事を確認しましょう。
これを確実にする最も簡単な方法は、確立されたデータセットリポジトリでデータセットを公開することです。特定の研究コミュニティ向けのリポジトリもあれば、「一般向け」のリポジトリもあります。(figshare.com, zenodo.org, datadryad.org, kaggle.com, など)。これらのリポジトリは、すべてのデータセットについて、データセットページにメタデータを自動的に含めるため、検索エンジンは、上図のように、データセットを発見し、特化した結果セクションに含めることが容易になります。
データ共有が成長し進化し続ける中、私たちはデータセットがウェブ上の他の種類の情報と同様に、見つけやすく、アクセスしやすく、利用しやすいものになるよう、今後も努めていきます。
謝辞
この機能の開発と立ち上げに貢献した、以下のような多くのGoogle社員に非常に感謝しています。
Rachel Zax、Damian Biollo、Shiyu Chen、Jonathan Drake、Sunil Vemuri、Stephen Tseou、Amit Bapat、Will Leszczuk、Marc Najork、Sergei Vassilvitskii、Bruno Possas、Corinna Cortes。
3.Google検索にDataset Search機能が一部追加関連リンク
1)ai.googleblog.com
Datasets at your fingertips in Google Search
2)datasetsearch.research.google.com
Dataset Search