責任を持ってオープンデータを共有する

責任を持ってオープンデータを共有する

1.責任を持ってオープンデータを共有するまとめ

・2019年3月2日はOpen Data Dayと云うお祭りで世界でイベントが開催された
・日本でも57ものイベントが開催され中には毎年開催している地域もある
・GoogleはDataSet検索ツールを公開しているのでそれを利用するとデータ見つけやすい

2.Open Data Dayとは?

以下、blog.googleより「Doing our part to share open data responsibly」の意訳です。元記事の投稿は2019年3月5日、Daphne LuongさんとCharina Chouさんによる投稿です。3月2日(土)が実はOpen Data Dayというお祭りが開催された記念日で、日本全国でも合計57件ものイベントが開催されたそうです。気づいてなかったのですが、私の地元でも第三回イベントを開催があったようで、皆さんも地元で地道な活動をやっている方々と出会う機会があるかもしれません。記念日に合わせて翻訳しよう思ってたのですが、Google AI Blogが怒涛の毎日更新状態に突入していたのでもう4月になってしまいました。

先週末(3/2)、Open Data Dayが開催されました。これは、誰でも自由にデータを利用できるようにすることを毎年祝うイベントです。世界中のコミュニティがイベントを開催しています。オープンデータの重要性に関する独自の見解を共有するために、Googleも少し時間をかけています。

データにアクセスしやすくすることは、人や組織にとって有意義なことです。私達はデータセットを公開し、APIや集約した製品データを誰でもアクセス可能にしたり、データにアクセスしやすく便利にするためのツールを開発したりします。

責任あるオープンデータセット
TensorFlowのようなオープンなフレームワークを通じて機械学習を採用する人が増えるにつれて、データセットを共有することがますます重要になっています。私達は他の開発者や研究者が使用できるように50以上のオープンデータセットを公開しています。

これらには、以下のデータセットが含まれます。YouTube 8M:AIによる動画学習のために外部利用可能な注釈付きビデオのコーパス、HDR+ Burst Photography dataset:他の人がポートレートモードなどのPixelスマートフォンの機能を強化するテクノロジを試すのに役立ちます。Open ImagesとOpen Images Extendedデータセット:写真の多様性を高めます。

データが公開されているからといって、それが有用になるとは限りません。 まず、データセットから得られた洞察が構造化された正確な例に基づいているように、データセットを整理する必要があります。

大規模なデータセットをクリーンアップすることは、簡単ま事ではありません。 私たち自身が使う前に、私たちはデータの標準化と品質の検証に数百時間を費やします。次に、データセットは、PDFではなくJSONなど、他の人にとっても使いやすい機械可読形式で共有する必要があります。最後に、データセットが目的のコンテンツを表しているかどうかを検討します。

データが使用可能であり、特定の状況を表すものであっても、すべてのアプリケーションに適しているとは限りません。たとえば、データセットに含まれる動物の画像が、北米の動物の画像によって大変が占められている場合、鹿を分類するのに役立ちますが、キリンは分類できません。

Facets のようなツールは、データセットの構成を分析し、それを使用するための最良の方法を評価するのに役立ちます。また、Crowdsourceアプリケーションのようなインターフェースを通じて、より代表的なデータセットを構築することに取り組んでいます。

他の人が自分のデータセットを使用するのを誘導するために、著者、構成、および提案された使用例を示すデータカードを公開することを検討してください(例えば、当社のOpen Images Extendedリリースの例を参照)。

データを見つけやすく便利にする
良いデータを公開するだけでは十分ではありません。検索可能である必要もあります。 研究者、開発者、ジャーナリスト、その他の好奇心旺盛なデータ探索者は、Webの何千というリポジトリ(保管庫)に散らばっているデータを見つけるのに苦労することがよくあります。

Googleのデータセット検索ツールを使用すると、検索エンジンで検索できるようにデータが記述されている限り、ホストされている場所に関係なくデータソースを見つけることができます。

このツールが数か月前に開始されて以来、米国国立海洋大気庁(NOAA)や国立衛生研究所(NIH)からの寄稿など、プラットフォーム上のユニークなデータセットの数は1000万以上に倍増しました。連邦準備制度(いわゆるFRB)、ヨーロッパのデータポータル、世界銀行、そしてあらゆる大陸からの政府ポータルの情報が検索可能になっています。

データを有用なものにするのは、それをいかに簡単に分析できるかです。 今日ではよりオープンなデータがありますが、データサイエンティストは複数の情報源にわたってそれを分析することにかなりの時間を費やしています。

この問題を解決するために、Data Commonsを作成しました。これはデータソースのナレッジグラフであり、ソースやフォーマットに関係なく、ユーザーが関心のあるさまざまなデータセットをすべて単一のローカルデータベースにあるかのように扱うことができます。誰でもデータセットに貢献したり、インフラストラクチャを利用したアプリケーションを構築することができます。

プラットフォームを使用している人々にとって、それはデータエンジニアリングにかける時間をより少なくし、多くの時間を洞察の発見に使える事を意味します。私たちはすでにData Commonsのエキサイティングなユースケースを見ています。

Josh HugとFernando Perezによって教えられたあるUC Berkeleyデータサイエンスコースでは、学生はCensus、CDC、およびBureau of Labor Statisticsのデータを使用して、米国各都市の肥満レベルを他の健康および経済的要因と関連付けました。

通常、その分析には数日から数週間かかります。 Data Commonsを使用して、学生は1時間以内に忠実度の高いモデルを構築することができました。私たちは他の教育者や研究者とパートナーを組むことを望んでいます。興味があれば、collaborate@datacommons.orgに手を差し伸べてください。

トレードオフのバランス
データを公開することにはトレードオフがあります。そして、私たちは様々なセンシティブな問題とデータ共有による潜在的な利益とのバランスをとることを目指しています。考慮すべき点の1つは、幅広いデータの公開性が、AIの原則と一致しない使用を促進する可能性があることです。

例えば、私たちは最近、2019 ASVspoof Challengeに参加している研究者だけが合成音声データを利用できるようにして、誤用を制限しながら、そのデータを使って深い偽を検出するツールを開発できるようにしました。

極端にデータを開放する事は、ユーザーや独自システムを危険に晒し、プライバシーの侵害を引き起こしたり、Googleのプラットフォームのセキュリティを脅かす可能性もあります。

私達はAPIを介してGoogle Maps、Gmailなどのサービスを利用できるようにしており、個人情報を安全に保ちながらサードパーティの開発者は独自の製品を構築することができます

また、Search Trendsのような個々の検索結果を集約したデータを公開し、プライバシーを考慮しながら現在ネット上で関心を集めている事が何かわかるように公開しています。

個人の病状や発症の予測などのために、管理された方法で個人情報を使用することには利点がありますが、AIが個人のプライバシーを侵害しないように、安全対策を講じることが重要です。

新たな研究は、センシティブなデータから学習する有望な手法を切り開いています。

1つはFederated Learningです。これは、個人が利用しているスマートフォンなどのデバイスから個人データを取り出さずにグローバルな機械学習モデルをトレーニングするための手法です。最近TensorFlow Federatedでオープンソースとして利用できるようになりました。

もう1つはDifferential Privacyです。これは、学習用データの詳細がMLモデルに不適切に公開されないことを強く保証するものです。

さらに、最近の前立腺癌の検出研究やGoogle 翻訳の研究で実証されたように、研究者は小さなトレーニングデータセットやzero-shot learningを使用してますます研究を進めています。

私達は、Googleのデータが人々が問題を解決する手助けになることを願っています。そのために私達は、Googleのデータをクリーンで、有用で、関連性があり、プライバシー保護されたオープンデータにアクセスしやすくなるように努力しています。

私達はまた、他の組織がどのように貢献できるかを検討するよう奨励します。独自データセットを公開する事、リリース前にそれらを整理して使いやすさを向上させる事、見つけやすさを高めるschema.orgメタデータ標準の使用、データカードによる透明性の向上、ユーザーのプライバシー保護とデータの悪用などとのトレードオフの検討。

過去1週間にオープンデータを祝うために集まったすべての人達へ。私たちはあなたが何を構築するのかを楽しみにしています。

 

3.責任を持ってオープンデータを共有する関連リンク

1)blog.google
Doing our part to share open data responsibly

2)opendataday.org
WHAT IS OPEN DATA DAY?

3)odd.okfn.jp
インターナショナル オープンデータ・デイ 2019

4)www.datacommons.org
Welcome to dataCommons

5)pair-code.github.io
FACETS – KNOW YOUR DATA

6)ai.google
Open Images Extended -Crowdsourced(PDF)