AI、機械学習、データサイエンス、ディープラーニングの2020年の進展と2021年の予測インダストリー編(2/3)

AI

1.AI、機械学習、データサイエンス、ディープラーニングの2020年の進展と2021年の予測インダストリー編(2/3)まとめ

・米国でヨーロッパの一般データ保護規則や同等のプライバシー規制を採用する可能性がある
・AIプラットフォームは統合されていくがサービスとしてのAIサービスが発達する可能性
・AIが内包してしまう偏見に対処する事があらゆる形態のAIに求められるようになる

2.ビジネス界における人工知能やマシンラーニングの2020年の振り返りと2021年の予測

以下、www.kdnuggets.comより「Industry 2021 Predictions for AI, Analytics, Data Science, Machine Learning」の意訳です。

アイキャッチ画像のクレジットはPhoto by sol on Unsplash

(4)Tomer Shiran:Dremioの共同創設者

・コンピューティングとデータの分離が当たり前になります
クラウドのデフォルトのデータ格納先としてクラウドデータレイクストレージ(AmazonS3やAzure Data Lake Storageなど)の台頭は、クラウドコンピューティングリソースの無限の供給と弾力性と相まって、データ分析アーキテクチャの新時代を切り開きました。アプリケーションがマイクロサービスアーキテクチャに移行したように、データ自体がクラウド機能を完全に活用できるようになりました。

データは、Apache ParquetやApache Icebergなどのオープンソースのファイルおよびテーブル形式で保存および管理でき、Apache Spark(バッチ処理)、Dremio(SQL)、Apache Kafka(ストリーミング)などの分離された柔軟なコンピューティングエンジンからアクセスできます。これらの進歩により、データは本質的に独自のレイヤーになり、データアーキテクチャを再考し、ビッグデータ分析のためにアプリケーション設計の利点を活用できるようになります。

・クラウドデータウェアハウスの輝きが衰える
クラウドデータウェアハウスのベンダーは、ストレージをコンピューティングから分離することを活用して、従来のデータウェアハウスよりもコストが低く、規模拡張性が向上した製品を提供しています。

ただし、データ自体はコンピューティングから分離されていません。最初にデータウェアハウスにロードする必要があり、データウェアハウスを介してのみアクセスできます。これには、データウェアハウスベンダーにデータをシステムに出し入れするための支払いが含まれます。そのため、クラウドデータウェアハウスの初期費用は少なくなる可能性がありますが、年間費用は予想よりも大幅に高くなる可能性があります。ただし、最新のクラウドデータレイクエンジンとApache Icebergなどのオープンソーステーブル形式を活用することで、企業はパフォーマンスを低下させることなくデータレイク内のデータを直接クエリできるようになり、複雑でコストのかかるデータのコピーと移動を大幅に削減できます。

・米国でデータプライバシーと企業統治のステージが一段あがる
ユーザーはオンラインプライバシーへの関心を高めており、米国がヨーロッパの一般データ保護規則(GDPR)やカリフォルニア消費者プライバシー法(CCPA)と同様の規制を採用する可能性が高くなっています。

これには、企業がデータ分析インフラストラクチャのプライバシーとデータガバナンスを倍増する必要があります。さらに、企業は、データのプライバシーとガバナンスを個別のスタンドアロンツールでは実現できず、代わりに分析インフラストラクチャの不可欠な部分として実装する必要があることを認識します。このため、データバージョン管理はクラウドデータレイクの標準となり、Project Nessieなどのオープンソーステクノロジーにより、企業は企業全体のプラットフォームでデータを安全に管理および管理できるようになります。

(5)Jeremy Levy:IndicativeのCEO

データの専門家として、私たちはより多くの人々に責任を負っています。 来年中には、潜在的な悪用の深刻さを認識している意識の高い企業が主導する、データ分析分野の倫理規定に向けた進展が見られると思います。

おそらく米国政府が介入し、独自のGDPRのいくつかのバージョンを通過させるでしょうが、テクノロジー企業がこの責任を主導すると私は信じています。

Facebookがエンゲージメントデータを使って行ったことは違法ではありませんが、それは子どもの発達や私たちの個人的な習慣に悪影響を与える可能性があることがわかりました。今後数年間で未来の人々は、私達が1960年代の映画内で人々が飛行機内で喫煙しているのを見た時のように、企業が2010年代に個人データを使用した方法を振り返って縮み上るようになるでしょう。

(6)Jeff CatlinlLexalyticsのCEO、Paul Barba:チーフサイエンティスト

・データへのラベル付けは、2021年に次の大きな副業になります。これは、1、2ドルを余分に稼ぐための一般的な方法ですが、価格設定は最安値を競っている状況であり、ラベル付けは、主に先進国の最低賃金をはるかに下回る額で供給されています。ただし、AIは、ヘルスケアや法律などの専門知識を必要とする業界で成功を収めています。専門知識の需要像により、より収益性の高い注釈契約を専門家に適合させるためのインフラストラクチャの開発が見込まれます。

・MLプラットフォームの合併がさらに進むでしょう。過去数年間でAIが「IT」テクノロジーになると、多数のAIインフラストラクチャ企業が出現し、AIを活用しようとしている企業のモデルを構築する作業を容易にするために、AIプラットフォームを売り始めました。これは表面的には良い事のように聞こえますが、ここで解決される特定のビジネスタスクはありません。テクノロジーをより効率的に使用するだけであり、これ自体を販売するのは困難です。これらのビジネスを支援したベンチャーキャピタルは、2021年に資金の引き揚げを開始する可能性があります。

・過去18か月間の深層学習モデルの改善は、望まれていてもまだ完全ではなかった自然言語処理が結果を出し始めることを意味します。これらには、より良い正規化を推進するより良い実体認識(entity recognition)が含まれます。そして、それは次に一般的な関係の抽出(generic relationship extraction)を推進します。ディープラーニングモデルの進歩により、これらすべてが可能になります。

・AIプラットフォームは合併されますが、AIサービスがこの穴を埋めます。企業は機械学習に関するサードパーティの専門知識を受け入れるようになり、これがMLのコンサルティングサービスの増加を後押ししています。この傾向は継続し、2021年に加速します。

・フェイクニュース検出が効果を表し始めます。フェイクニュースの検出は非常に難しい問題ですが、非常に賢い多くの人がそれに多くの時間を費やしています。誤った情報の拡散は、2021年後半までに著しく減少するでしょう。

(7)Robyn Speer:Luminosoのチーフサイエンスオフィサー

・AIが内包してしまう偏見と戦うためにより多くの事がなされる
2021年には、あらゆる形態のAIが持つ偏見と戦うためにビジネスが更に多くの事を行うことを本当に望んでいます。

「偏ったデータを使ってトレーニングしない」だけで簡単に実現出来たら良いのですが、しかし、偏りのないデータとはどこからもたらされるのでしょうか?

あなたが大量に収集した現実世界のデータは、私達が住んでいる世界の偏りを反映しています。最近、Twitterでこれについて説明しました。

機械学習の様々な段階で発生するAIが内包してしまう偏りと戦うための4つのステップがあります。

・元データ内に潜む偏りとそれらを説明する方法を知る
・必要に応じて、偏りを除去する手法を適用して、偏りが中間特徴表現に焼き付けられないようにします。
・機械学習の出力結果が公正かつ透明な方法で使用されるようにします。
・システムに欠陥や意図しない結果が生じた場合に対応し、説明責任を果たします。

3.AI、機械学習、データサイエンス、ディープラーニングの2020年の進展と2021年の予測インダストリー編(2/3)関連リンク

1)www.kdnuggets.com
Industry 2021 Predictions for AI, Analytics, Data Science, Machine Learning

コメント

タイトルとURLをコピーしました