Data Cascades：皆モデルの開発をやりたいのです！データ整備ではなく！(2/2)

１．Data Cascades：皆モデルの開発をやりたいのです！データ整備ではなく！(2/2)まとめ

・ML の専門家が「十分な専門知識を備えていない領域」でデータを管理する事も問題となる
・対象領域の専門知識よりもMLの技術的な専門知識に依存する慣行がカスケードを生み出す
・データカスケードに対処するには研究と実践において複数の体系的アプローチが必要

２．データカスケードを防ぐ方法

以下、ai.googleblog.comより「Data Cascades in Machine Learning」の意訳です。元記事は2021年6月4日、Nithya Sambasivanさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Joe Green on Unsplash

別の一般的なタイプのデータカスケードは、ML の専門家が「十分な専門知識を備えていない領域」でデータを管理することを任されている場合に発生する可能性があります。

例えば、密猟場所の特定や水中探査中に収集されたデータなど、特定の種類の情報を扱う際は、生物科学、社会科学、およびコミュニティに関する情報などの専門知識が必要となります。

しかしながら、私たちが調査した一部の開発者は、自分が持っている専門知識を超えるレベルの一連のデータ関連作業を実行する必要が出てくるケースがあると述べています。

例えば、データの破棄、値の修正、データの併合、またはデータ収集の再開の決定などです。これらはモデルのパフォーマンスを制限するデータカスケードにつながります。

対象領域の専門知識(たとえば、対象領域の専門家との連携)よりもMLの技術的な専門知識に依存する慣行が、これらのカスケードの発端となったように見えます。

本ホワイトペーパーで観察された他の 2 つのカスケードは、データ収集者、ML 開発者、その他のパートナー間のインセンティブと組織的慣行の矛盾から生じました。

例えば、1 つのカスケードは、データセットのドキュメントが不十分だったことが原因です。データに関連する作業には複数のチーム間での慎重な調整が必要ですが、利害関係者が優先順位やワークフローを調整していない場合、これは特に困難になります。

データカスケードに対処する方法
データカスケードに対処するには、ML の研究と実践において複数の部分からなる体系的なアプローチが必要です。

(1)ML システムで扱うデータの良質さを概念として開発し、伝達する事
これはモデルの適合度の考え方に似ています。これには、標準化された指標の開発と、データの品質を測定するためにそれらの指標を頻繁に使用することが含まれます。

・現象学的忠実度(phenomenological fidelity)のようなもの
データがどの程度正確かつ包括的に現象を表しているか？
・妥当性(validity)
データによって捕捉された現象に関連するものをデータがどの程度説明しているか？

これは、F1スコアなど、モデルのパフォーマンスを測定するための優れた指標を開発した方法に似ています。

(2)データに関する作業の重要性を認識させるためにインセンティブを革新
カンファレンスでデータに関する経験論を歓迎する事、データセットのメンテナンスをやりがいのある事にする事、または、組織内のデータに関する作業(収集、ラベル付け、クリーニング、またはメンテナンス)を行う従業員に報酬を与える事

(3)複数の役割と複数のチーム間の調整
データに関する作業では、多くの場合、複数の役割と複数のチーム間での調整が必要になりますが、現在、これはかなり制限されています。(前述の要因により、一部ではありますが完全ではありません)。私達の調査では、特にニッチなデータセットの収集またはラベル付けに依存する ML システムでは、データ収集者、領域に関する専門知識を持つ人、ML開発者の間で、より優れたコラボレーション、透明性、および利益の公平な分配を促進することの価値が指摘されています。

(4)最後に、複数の国にわたる私たちの調査によると、データ不足は低所得国で顕著であり、ML 開発者は新しいデータセットを定義して手動で収集するという追加の問題に直面しており、ML システムの開発を開始することさえ困難です。オープンなデータセットバンクを有効にし、データポリシーを作成し、政策立案者と市民社会のMLに関するリテラシーを育成して、現在のデータの不平等に世界的に対処することが重要です。

結論
本研究では、経験的証拠を提供し、ML システムでのデータカスケードの概念を定式化します。
私たちは、データの卓越性を奨励することによってもたらされる可能性のある潜在的な価値が認識されるようになる事を望んでいます。また、HCI については、まだ十分に調査されていないが重要な新しい研究課題を紹介したいと考えています。データカスケードに関する私たちの調査は、ML 開発者とデザイナーを対象とした改訂版 PAIR ガイドブックのデータ収集と評価のための証拠に裏付けられた最先端のガイドラインにつながりました。

謝辞
この論文は、Shivani Kapania, Hannah Highfill, Diana Akrong, Praveen Paritosh そして Lora Aroyoと共同で執筆しました。

調査参加者と、Sures Kumar Thoddu Srinivasan, Jose M. Faleiro, Kristen Olson, Biswajeet Malik, Siddhant Agarwal, Manish Gupta, Aneidi Udo-Obong, Divy Thakkar, Di Dang, そして Solomon Awosupinに感謝します。