Agile Data Labeling：それが何であり、なぜそれが必要なのか？(3/3)

１．Agile Data Labeling：それが何であり、なぜそれが必要なのか？(3/3)まとめ

・複数の方法/ツール、アウトソース先を組み合わせて最適なやり方を探る事が重要
・反復的なアプローチを採用し、量より質を優先した多様性のあるラベルが必要
・アジャイル革命はAI/MLの世界でも一部で既に始まっている可能性がある

２．データラベリングにアジャイルを適用

以下、www.kdnuggets.comより「Agile Data Labeling: What it is and why you need it」の意訳です。元記事は2021年8月、Jennifer Prendkiさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by Daria Nepriakhina on Unsplash

(1)複数の方法/ツールを組み合わせる

MLモデルを使用して「合成」ラベルを生成する自動ラベル付けの概念は、近年ますます人気が高まっており、現状にうんざりしている人々に希望を与えていますが、データラベル付けを合理化するための1つの試みにすぎません。

しかしながら、単一のアプローチがすべての問題を解決するわけではありません。たとえば、自動ラベル付けの中心に存在するのは、鶏が先か卵が先かという問題です。そのため、自動ラベル付けループの中に人間を介在させるヒューマンインザループラベリングの概念が注目を集めています。

とは言うものの、これらの試みはあまり洗練されていないと感じられる事があり、これらの新しいパラダイムが自分たちの課題にどのように適用されるかを理解するのに苦労している企業にはほとんど、あるいはまったく安心をもたらしません。

そのため、ML業界は既存のツールに関する可視性と透明性を高める必要があります。(これに対する最初の素晴らしい試みは、TWIMLがPodcastで製品間の比較として提供しているTWIML Solutions Guideですが、このガイドは特にラベル付けソリューションを対象とはしているわけではありません)。ML業界にはツール間の簡単な統合、およびMLライフサイクルの残りの部分と自然に統合されるエンドツーエンドのラベリングワークフローが求められます。

(2)マーケットの強みを見出して活用する

ラベル付け作業をアウトソーシングする際は、貴方が決めた発注先以外にも満足のいく結果を提供できる発注先がある場合があります。

これは、ほとんどのラベリング会社がクラウドソーシングまたはBPOs(Business Productivity Online Suite、Microsoftが提供しているSaaS型クラウドサービス)のいずれかに依存しているためです。つまり、注釈作業者は高度なスキルを持つ労働力ではないため、MRIの脳腫瘍画像に注釈を付けることはできません。幸いなことに、一部の新興企業は現在、特定の業種に特化したサービスの提供に焦点を合わせています。

ただし、専門家が必要かどうかに関係なく、適切な会社を特定することは依然として困難です。ほとんどのラベリング会社はそれをすべて行いますが、最終的には独自の長所と短所があり、顧客は年間契約書に署名した後にのみそれを発見することがよくあります。

すべての選択肢を比較することは、必要なときに利用できる最高の注釈作業者を見つけるための鍵であり、プロセスの重要な部分である必要があります。

(3)反復的なアプローチを取る

フィードバックは機械学習の中心にありますが、データにラベルを付けるプロセスは、現実的にはフィードバックループから驚くほど外れています。

目をつぶってモデルを開発しようとする人は誰もいませんが、それでも、それはラベルを生成するために伝統的に行われていることです。クロール-ウォーク-ランアプローチを使用して、ラベル付けプロセスとモデルのデータセットを調整および最適化することは、間違いなく進むべき道です。そのため、機械を使って事前に注釈を付け、人間がその注釈を検証する、ヒューマンインザループベースのパラダイムが明らかに勝者です。

さらに有望なアプローチは、モデルがラベル付け作業作業時に参考にした手がかり部分を調べて、モデルが失敗した場所と理由を特定し、不良ラベルを特定し、必要に応じて修正することです。これを行う1つの方法は、アクティブラーニングを使用することです。

(4)量より質を優先する

データが多ければ多いほど良いと教えられてきたのなら、その教えを受けたのは間違いなくあなただけではありません。

これは、機械学習で最も一般的な誤解の1つです。ただし、重要なのはデータの量ではなく、データの多様性です。規模は単純に過大評価されています。足掛かりとするには明らかにいくつかのデータが必要ですが、大量のデータは容赦なく収穫逓減につながります。これは純粋な経済学です。

代わりに、多くの場合、無駄なデータの負荷にラベルを付けるよりも、戦略的に選択されたトレーニングデータセットに適切なラベルを取得するために時間とお金を投資する方が有益です。データキュレーション(最も影響力のあるトレーニングレコードをサンプリングするという概念)がMLライフサイクルに確実に組み込まれるようにすることは、今後数年間のMLOpsの重要な焦点となるはずです。

あなたがほとんどのデータサイエンティストと同様に、データラベリングに不満を感じている場合は、これらすべてのアイデアを試してみる時期かもしれません。アジャイルの初期の頃と同じように、どの教訓も特に難しいものではありませんが、それらはすべて自己規律と意識を必要とします。

これらのベストプラクティスを世界中のデータサイエンティストの日常の習慣に組み込むには確かに長い道のりとなりますが、他の意味のある変化と同様に、それは1つから始まります。2001年に、スキーリゾート地で行われた会議が、ソフトウェア開発革命につながるエンジンとなったアジャイルを始動するために必要なすべてであったことを思い出してください。

私たちの革命は、疑いを持たない目で見れば、既に展開が始まっている可能性があります。実際、おそらくそうです。どうぞお楽しみに。