1.Googleデータセットサーチの仕組みとオープンデータエコシステムの育成(2/2)まとめ
・データセット検索はWeb検索のランキングアルゴリズムを真似ている
・Googleは引用を明確にする文化を育成してコミュニティを育成したい
・データセット検索に表示させるにはWebページにメタデータ記述が必要
2.オープンデータエコシステムの育成
以下、ai.googleblog.comより「Building Google Dataset Search and Fostering an Open Data Ecosystem」の意訳です。1/2はこちら
他のGoogleリソースへのリンク
Googleには、論文専用検索エンジンのGoogle Scholarなど、データセットに関連するメタデータを増やすのに役立つ多くのデータリソースがあります。どのデータセットが出版物から参照や引用をされているか知ることは、少なくとも2つの目的に役立ちます。
1)これは、データセットの重要性と有力性についての貴重なシグナルを提供します。
2)このデータの引用に言及する事により、データセットの作成者は、容易にクレジットを得る事ができます。
実際、私達はデータを使用している出版物をハイライトすることが、より健全なビッグデータのエコシステムにつながることを願っています。
現在のところ、データを引用する方法に関する良いモデルがないため、Google Scholarが提供している参照リンクと非常に似ています。我々はデジタルオブジェクト識別子(DOI)を用いてより良いカバレッジを提供しようとしていますが、より高いレベルの精度を得るために、この分野でさらなる進歩を遂げることを願っています。
結果の検索とランキング
ユーザーがデータセット検索を実行すると、ウェブページのGoogle Web検索とは異なり、データセット検索はデータセットのコーパス(言語資料)を検索します。
他の様々な検索と同様に、データセットサーチは、データが検索語に関連しているかどうかを判断し、検索結果を表示する順番を決定するためにデータをランク付けする必要があります。
ユーザーがデータセットをどのように検索するかについての大規模な研究は存在しないので、最初のアプローチとして、私たちはGoogle Web検索のランキングアルゴリズムを真似ています。ただし、データセットのランキングを作る事はWebページのランキングとは異なり、メタデータの品質、引用など追加の信号を考慮しています。データセット検索がユーザーにより多く利用されれば、ユーザーがデータセットをどのように検索するかが判明してくるので、そのフィードバックを用いて私達のランキングアルゴリズムが大幅に性能向上することを願っています。
より良いオープンなデータ・エコシステム
私たちは、データ検索を容易にしデータ提供者にプラスの影響を与えるツールを作成しようと、Dataset Searchを開発しました。データを説明するメタデータの記述にオープンスタンダードである(schema.org、W3C DCAT、JSON-LDなど)を使用しているのは意図的です。データセット検索は、それがサポートしているオープンデータエコシステムが健全でなければ成り立たないためです。そのため、Google Dataset Searchは、次のことを奨励し、強力なオープンデータエコシステムをサポートすることを目指しています。
1)公開されたデータを記述するためのオープンなメタデータ書式の普及
2)より多くのタイプのデータを詳細に記述するためのオープンなメタデータ書式の開発
3)研究出版物が必ず引用を明確にするように、データの使用に関しても引用を明確にする文化の育成。それはデータを作成して公開する人に、彼らにふさわしいクレジット(栄誉)を与えます。
4)このメタデータを活用してより多くの適切なデータの発見または使用を可能にするツールの開発
オープンなメタデータ標準がもっと使われるようになり、データセット検索が継続的に開発(そして、望ましくは他のツールも)されれば、より健全なオープンデータエコシステムが促進され、そこではデータはもっと価値の高いものと見なされるようになるでしょう。
そして、あなたのデータセットはどこですか?
ここまでの説明で、データセット検索は、データセットが存在するWebページ内に記述されているメタデータを必要としている事が明らかになったと思います。
特定のデータセットが検索結果に表示されない理由の最も一般的な答えは、そのデータセットのWebページにメタデータがマークアップされていないことです。そのページを構造化データテストツールでチェックすれば、マークアップが正確に記述されているかどうかがわかります。そこにマークアップが表示されず、あなたがそのページを所有している場合はメタデータを追記すればデータセットサーチはそれを見つける事ができます。ページを所有していない場合は、ページ所有者にメタデータの追加を依頼することができます。
私達はデータセット検索が有用であるとオープンデータコミュニティが評価してくれる事を希望しています。検索者は運良くデータを発見して時間を節約する事ができ、科学者やジャーナリストもデータを検索する時間を短縮し、データを使用する時間をより長くする事が出来るようになる事を願っています。
謝辞
私たちは、プロジェクトに携わってくれたXiaomeng Ban、Dan Brickley、Lee Butler、Thomas Chen、Corinna Cortes、Kevin Espinoza、Archana Jain、Mike Jones、Kishore Papineni、Chris Sater、Gokhan Turhan、Shubin Zhao、Andi Vajdaに感謝します。すべてのパートナー、共同作業者、および早期にデータセットサーチを利用してくれた皆さんの支援に感謝いたします。
3.Googleデータセットサーチの仕組みとオープンデータエコシステムの育成(2/2)関連リンク
1)ai.googleblog.com
Building Google Dataset Search and Fostering an Open Data Ecosystem
2)search.google.com
構造化データテストツール
コメント