Data Cards Playbook:データセットの透明性を高めるツールキット(2/2)

データセット

1.Data Cards Playbook:データセットの透明性を高めるツールキット(2/2)まとめ

・PlaybookはAsk、Inspect、Answer、Auditという4つのモジュールで構成
・各モジュールには透明性の問題に対処するツールが含まれており使用可能
・Data Cards Playbookでデータセットに関する様々な問題を解決する事が可能

2.Data Cards Playbookの使用例

以下、ai.googleblog.comより「The Data Cards Playbook: A Toolkit for Transparency in Dataset Documentation」の意訳です。元記事は2022年11月17日、Mahima PushkarnaさんとAndrew Zaldivarさんによる投稿です。

アイキャッチ画像はstable diffusionの1.5版の生成

Playbookのモジュール

Playbookは、(1)質問(Ask)、(2)検査(Inspect)、(3)回答(Answer)、(4)監査(Audit)という4つのモジュールで構成されています。

各モジュールには、ワークフロー内で使用できる資料が含まれており、頻繁に発生する透明性の問題に対処することができます。Data Cardsはスケーラビリティと拡張性を考慮して作成されているため、モジュールはチームがすでに使用している発散-収束(divergence-converge)の考え方を活用しており、文書化が後回しにされることはありません。AskモジュールとInspectモジュールは、組織のニーズや原則に合わせたデータカードテンプレートの作成と評価を支援します。AnswerモジュールとAuditモジュールは、データチームがテンプレートを完成させ、そのデータカードを評価するのを支援します。

Askでは、チームは透明性を定義し、部門横断的な意思決定のためにデータセットのドキュメントを最適化します。参加型の活動では、Data Cardsの読者が、データセットのドキュメンテーションの透明性を構成する要素について発言する機会が設けられています。これらの活動は、特定の課題に取り組むもので、強度と期間が異なるため、チームはニーズに合わせて活動を組み合わせて使用することができます。

Inspectモジュールには、データセットの透明性とプロセスにおけるギャップと機会を、ユーザー中心およびデータセット中心の観点から特定するための活動が含まれています。このモジュールは、データカードテンプレートを組織全体で改良、検証、運用し、読者がデータセットについて妥当な結論に達することができるよう、チームをサポートします。

Answerモジュールには、難しい質問や曖昧な質問に答えるための透明性のパターンとデータセット探索のアクティビティが含まれています。透明性を高めるための準備、読者を意識した要約の書き方、データセットの使いやすさと有用性、長期的なデータカードの管理などのトピックを扱っています。

Auditモジュールは、データチームや組織が、完成したデータカードを公開する前に評価するプロセスを確立するのに役立ちます。また、複数のデータセットに対する透明性の取り組みが、組織内でどのように拡大したかを測定・追跡するためのガイダンスも含まれています。

実践

Googleのデータオペレーションチームは、AskモジュールのLensesとScopesの初期バージョンを使って、カスタマイズしたData Cardテンプレートを作成しました。興味深いことに、このテンプレートはデータセットが引き渡されるまでのワークフロー全体で使用されていることがわかりました。

彼らはData Cardを使って研究チームからデータセットのリクエストを受け、データセットを作成する様々なプロセスを追跡し、注釈を担当するベンダーからメタデータを収集し、承認(approvals)を管理しました。専門家と反復作業を行い、更新を管理する彼らの経験は、私たちの透明性パターンに反映されています。

別のデータガバナンスグループは、この活動をさらに発展させ、MLの健康関連で主導権を持つステークホルダーにインタビューを行いました。これらの説明書を使って、彼らはデータカードスキーマを共同作成するためのステークホルダーを特定しました。

Lensesの投票は、典型的なドキュメンテーションの質問を除外し、彼らのデータ型に特有の非典型的なドキュメンテーションのニーズを特定し、彼らのチーム内のMLリーダーシップと戦術的役割によって頻繁に行われる意思決定に重要であるために使用されました。これらの質問は、データリポジトリの既存のメタデータスキーマをカスタマイズするために使用されました。

まとめ

Data Cards Playbookは、データセットの透明性を高めるための継続的かつ文脈的なアプローチであり、関連するすべての資料と文脈を意図的に考慮するものです。これにより、研究者が責任を持って社会に役立つMLシステムやデータセットを開発するための道を開くために、透明性のための実践的な基盤を確立し、促進することを期待しています。

4つのPlaybookモジュールに加え、Markdownファイルを操作してデータカードを生成するカードビルダーもオープンソースで提供しています。GEM BenchmarkプロジェクトのData Cardsで、ビルダーが実際に動いているのを見ることができます。作成されたData Cardsは、このPlaybookの活動の結果であり、GEMチームはすべての次元で改善点を特定し、スコープを中心に設計された対話型の収集ツールを作成しました。

私たちは、これだけでは公平性、説明責任、透明性のための包括的な解決策にはならないことを認識しています。私たちは、学んだ教訓を生かしてプレイブックを改善し続けていきます。私たちは、Data Cards Playbookが透明性に関する研究を共同で進めるための強固なプラットフォームになることを望んでおり、これをあなた自身のものにすることをお勧めします。

謝辞

この研究は、Reena Jana、Vivian Tsai、Oddur Kjartanssonとの共同研究で行われたものです。Donald Gonzalez, Dan Nanas, Parker Barnes, Laura Rosenstein, Diana Akrong, Monica Caraway, Ding Wang, Danielle Smalls, Aybuke Turker, Emily Brouillet, Andrew Fuchs, Sebastian Gehrmann, Cassie Kozyrkov, Alex Siegman, and Anthony Keene には多大な貢献、そして Meg Mitchell と Timnit Gebru にはこの仕事を推進してもらったことに感謝を捧げたいと思います。

また、Adam Boulanger, Lauren Wilcox, Roxanne Pinto, Parker Barnes, Ayça Çakmakli のフィードバック、Tulsee Doshi, Dan Liebling, Meredith Morris, Lucas Dixon, Fernanda Viegas, Jen Gennai, Marian Croak のサポートに感謝したい。この作業は、ワークショップや調査の参加者、そして多くのパートナーの方々の洞察と経験によってこのPlaybookが形作られたからこそ実現したのです。

3.Data Cards Playbook:データセットの透明性を高めるツールキット(2/2)関連リンク

1)ai.googleblog.com
The Data Cards Playbook: A Toolkit for Transparency in Dataset Documentation

2)dl.acm.org
Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI

3)pair-code.github.io
The Data Cards Playbook

タイトルとURLをコピーしました