Data Cards Playbook:データセットの透明性を高めるツールキット(1/2)

１．Data Cards Playbook:データセットの透明性を高めるツールキット(1/2)まとめ

・データセットの起源、開発、意図等に関する理解の共有は重要度が高まっている
・しかしデータセットに関する知識はチームや個人間で分散してしまう事が多い
・Data Cards Playbookはデータセットに関する様々な問題を解決するためツール

２．Data Cards Playbookとは？

以下、ai.googleblog.comより「The Data Cards Playbook: A Toolkit for Transparency in Dataset Documentation」の意訳です。元記事は2022年11月17日、Mahima PushkarnaさんとAndrew Zaldivarさんによる投稿です。

アイキャッチ画像はstable diffusionの1.5版の生成でトトロの絵が描かれた透明なカードを描こうとしたらあまりにも簡単に出来てしまったので、少年漫画のカードバトル風にしてみたら様々な役どころを余裕でこなすトトロの芸達者感に脱帽したイラスト

機械学習(ML:Machine Learning)研究は、多くの下流タスクを実行できる大規模なモデルへと移行しており、データセットの起源、開発、意図、進化に関する理解の共有は、責任と情報に基づくMLモデルの開発にとってますます重要になってきています。

しかし、データセットに関する知識は、その利用や実装を含め、しばしばチームや個人、さらには時間さえも超えて分散しています。今年の初めにACMカンファレンスのFairness, Accountability, and Transparency(ACM FAccT)において、データセットのライフサイクルに渡って透明性を高めることを目的としたデータセットドキュメントのフレームワークであるData Cardsを発表しました。

Data Cardsは、MLデータセットの構造的な要約を提供し、データを形成するプロセスと理論的根拠を説明し、そのデータがモデルの訓練や評価にどのように使われるかを説明する透明性の高い成果物です。

データカードには最低限以下の項目が含まれています。

(1)上流ソース
(2)データ収集と注釈付け方法
(3)トレーニングと評価方法
(4)使用目的
(5)モデルの性能に影響を与える決定事項

実務的には、2つの重要な要因が、透明性を持つ生成物としての成功を決定します。
意思決定者が使用する情報を特定する能力と、その情報を取得するために必要なプロセスとガイダンスの確立です。

私たちは、データカードを様々なデータセットや組織の状況に適応させるために設計された3つの「足場(scaffolding)」フレームワークを使って、この考えを論文で探求し始めました。

これらのフレームワークは、境界インフラストラクチャー(boundary infrastructures)の構築に役立ちました。

境界インフラとは、手法や関わり方をモデル化したものを指します。これはコミュニティ間で情報を伝達するために必要な技術的・機能的インフラを補完するものです。

境界インフラストラクチャーは、データセットのステークホルダーが、データセットの作成、文書化、使用に関する意思決定に多様な意見を提供するための共通の基盤を見出すことを可能にします。

今日、私たちは「Data Cards Playbook」を紹介します。これは、様々なチームがMLデータセットに関する透明性の問題を解決するためのセルフガイドツールキットです。

このプレイブックは、透明性戦略の計画から利用者の定義、複雑なデータセットの読者中心の要約の作成まで、人間中心設計のアプローチを文書化に適用し、文書化されたデータセットの使いやすさと有用性が十分に理解されるように配慮しています。

データセットの透明性を確保するための典型的な障害に対処するための参加型アクティビティ、データの透明性を新しいデータタイプに拡張するためのフレームワーク、研究者や製品チーム、企業がそれぞれの組織方針を反映したData Cardsを作成するためのガイダンスを作成しました。

Data Cards Playbookは、公正性、説明責任、透明性に関する最新の研究成果を取り入れています。

Data Cards Playbook

Playbookは、調査、成果物の分析、インタビュー、ワークショップなど、多方面からのアプローチによって作成されました。

データセットやモデルについてGoogle社員が何を知りたがっているのか、そしてその情報を日々の業務でどのように使っているのかを調査したのです。

過去2年間にわたり、Googleの15のチームが使用する透明性の高い成果物のテンプレートを展開し、ボトルネックが発生した場合は、これらのチームと連携して適切な回避策を決定しました。

そして、画像、言語、表形式、ビデオ、オーディオ、関係データセットを実稼働環境で説明する20以上のデータカードを作成し、その一部は現在GitHubで公開されています。この多面的なアプローチにより、各Googleチームのドキュメント作成ワークフロー、共同での情報収集方法、下流関係者からの情報要求、レビューと評価の方法について洞察を得ることができました。

さらに、業界や学会のデザイン、ポリシー、テクノロジーの専門家に話を聞き、私たちが作成したデータカードに対する独自のフィードバックを得ました。また、2021年にACM FACCTで開催された一連のワークショップで得た学びも取り入れました。Google社内では、ML研究者、データサイエンティスト、エンジニア、AI倫理審査員、プロダクトマネージャー、リーダーシップと、ソリューションの有効性とスケーラビリティを評価しました。Data Cards Playbookでは、成功した手法を、チーム独自のニーズに簡単に適応できる再現可能な実践形式に変換しました。

活動、基盤、透明性パターン

Data Cards Playbookは、スプリントと共同設計の通例をモデル化しています。

そのため、部門を超えたチームとその利害関係者は、データセットの文書化とガバナンスソリューションを作成する際に経験する実際の問題を視野に入れて、透明性を定義するために協力し合うことができます。

33種類の「活動(Activities)」は、さまざまなステークホルダーから幅広く重要な視点を引き出すため、Data CardsはData Setsのライフサイクル全般の意思決定に役立ちます。

GoogleのResponsible AIチームの研究者と協力し、公正さと説明責任への配慮を反映できる活動を作成しました。例えば、Evaluation Gaps in MLをワークシートに適用し、より完全なデータセットの文書化を実現しました。

Data Cards Playbook を組織で使用するために、すぐに利用可能な活動テンプレートをpair-code.github.ioよりダウンロードしてください。

透明性の高いドキュメントを作成する際に直面する課題を予測し、透明性を向上させるベストプラクティスを提供し、さまざまな背景を持つ読者にデータカードを役立ててもらうために、証拠に基づくガイダンスで透明性パターン(Transparency Patterns) を形成しました。課題とその解決策は、Googler、業界の専門家、および学術研究からのデータと洞察に基づいています。