人工知能とデータサイエンスの2019年の主な進展と2020年の予測Industry編(1/3)

１．人工知能とデータサイエンスの2019年の主な進展と2020年の予測Industry編(1/3)まとめ

・データの民主化によりデータ分析がよりビジネスに近い様々な部門で行われるようになる
・AIおよび分析チームはデータ組織の新しい基盤として1つに統合されていくかもしれない
・AIのセキュリティと倫理的使用はオンプレミスの復権に繋がるかもしれない

２．Beforeコロナ時代の2020年予測

以下、www.kdnuggets.comより「Industry AI, Analytics, Machine Learning, Data Science Predictions for 2020」の意訳です。元記事の投稿は2019年12月、Gregory Piatetskyさんによる投稿です。

2020年の予測って、いや、もう7月も終わりですがな！と自ら突っ込んでおきますが、いや、ホント、コロナネタもあるし、Googleも在宅勤務になってるせいなのかGoogle AI Blogの投稿ペースが加速してて引き離されて焦る一方でした。Research編とDevelopments編とIndustry編の三部作だったのですがようやく着手できました。

アイキャッチ画像はIndustryで検索すると産業革命的な画像が沢山でてきてちょっと違うなと思ってbusinessで検索したら、沢山のシリコンバレー的なスマートな画像の中、すっごいジャパニーズな感じの画像が出てきて何故か凄く良かったのでガンバレ日本のビジネスマンと想いを込めて選びました、クレジットはPhoto by bantersnaps on Unsplash

AI / Analytics / DS / ML業界で最も革新的な企業によるいくつかの予測をまとめた、2020年の予測シリーズの第3部です。

一般的なテーマとしては、データ、ビジネス、データサイエンスの民主化、AutoML、NLP、クラウド、およびDataOpsがあります。

以下は、@Alluxio, @Alteryx, @AppenGlobal, @CasertaData, @Circonus, @dotDataUS, @Infoworksio, @Izenda, @Lexalytics, @Mathworks, @Percona, @Sisudata, そして@StreamSetsからの回答です。

(1)Alluxioの創設者兼CTOであるLi Haoyuanによる2020年のAI予測
1つの機械学習フレームワークが全てを支配
モデルを使用した機械学習は転換期を迎えており、あらゆる規模の企業が全ての段階でモデルトレーニングの運用を開始しています。モデルトレーニングにはいくつかの人気のあるフレームワークが存在しますが、業界を先導するテクノロジーはまだ登場していません。

例えば、Apache Sparkはデータ変換ジョブ、Prestoはインタラクティブクエリの最先端技術として台頭して業界を先導していると考えられているように、 2020年は、PyTorchまたはTensorflowを先頭集団として、より幅広いモデルトレーニングの分野で競争が行われる年になるでしょう。

「Kubernetifying」を分析関連業務に導入
コンテナとKubernetesは、Webサーバーや自己完結型データベースなどのステートレスアプリケーションで非常に優れた機能を発揮しますが、高度な分析とAIに関しては、コンテナの使用量はそれほど多くありません。2020年には、AIおよび分析関連業務のKubernetesへの移行が主流になります。

分析関連業務を「Kubernetifying」するとは、remote data silos(各部門内で個々に管理されているデータ)をK8sクラスターに移動することにより、データを使いやすくし、データの共有と柔軟性の問題を解決することを意味します。

AIおよび分析チームはデータ組織の新しい基盤として1つに統合されていくでしょう。
昨日までのHadoopプラットフォームチームは、今日のAI/分析チームです。時間の経過とともに、データに関する洞察を得るためのさまざまな方法が登場しました。

AIは、構造化データ分析の次のステップです。統計モデルであったものは、コンピューターサイエンスに収束してAIとMLになりました。そのため、データ、分析、AIの各チームは、全員が同じデータから価値を引き出すために協力する必要があります。そして、これは適切なデータ共有基盤を構築することで行われます。ストレージサイロとコンピューティングは、オンプレミス、クラウド、またはその両方で展開されるのが一般的です。2020年には、このデータ共有基盤を中心に専任のチームを構築する組織が増えます.

(2)Alteryの最高データおよび分析責任者Alan Jacobson
データの民主化が重要
2020年は、データが最終的に民主化された年として記録されるでしょう。分析業務はデータサイエンスチームから離れ、ビジネス部門で完全な分析を行うようになる動きは過去数年間もありましたが、最終的に加速するでしょう。

このセルフサービス革命は、組織がデータとやり取りする方法を変え、ビジネス知識を持つ人々とデータ知識を持つ人々の間のギャップを埋めます。

セルフサービス分析は、使いやすいAPIと幅広いデータソースの統合により可能になり、デジタル変換の最も重要な段階の1つである「データ統合(data integration)」を可能にします。典型的なデータ関連作業者はITドメインからビジネスドメインに移行し始めており、その結果、データタスクを実行する作業者の数が増えています。その結果、より多くのデータが処理され、より多くの分析が行われ、最終的にはビジネスに対するより大きな、より良い影響がもたらされます。

(3)AppenのCTO,Wilson Pang
自然言語処理の進歩により、チャットボットの広範な採用、およびカスタマーサービスなどのオンラインQ＆Aが可能になるでしょう。

今年と去年に、自然言語処理(NLP)に関する技術革新がいくつかありました。例えば、BERTは、NLPモデルで現在可能なことを拡張しました。2020年には、サービスチャットボット、オンラインの質疑応答、感情分析などのAIアプリケーションがますます多くの企業に採用されるでしょう。

MLツールとAIOpsは、より多くの企業を引き付けるでしょう。
ここ数年、機械学習とAIツールのエコシステム全体の成熟を目の当たりにしてきました。

データのラベル付け、モデルのトレーニング、デバッグ、モデルの業務フローへの取り込み、製品展開、および展開後の継続的な監視など、テクノロジー関連のツールは来年大幅に成長します。

これら全てのツールの管理を支援するために、2020年にはより多くの企業がAIOpsの実践に移行します。 AWS、GCP、Microsoft Azureなどの大企業のプラットフォームには、AIOpsをサポートするための優れたツールが既にありますが、多くのFortune 500企業は、これらのプラットフォームが存在するクラウドへの展開に依然として慎重です。

セキュリティおよび倫理のベストプラクティスにより、より多くのオンプレミスAI展開が促進されます。AIイニシアチブについてより多くのデータを実験する組織が増えるにつれて、AIのセキュリティと倫理的使用がますます重要になります。

この分野の懸念の中で最も重要なのは、特に個人を特定できる情報(PII:Personally Identifiable Information)、および新製品のアイデアや独占的な情報などのデータ漏洩です。

これらの懸念は、AI作成を可能にするより多くのオンプレミスソリューションにつながるはずです。それらには、データのラベル付けや、多様化したクラウドを安全に活用するソリューションが含まれます。

安全なデータ活用を実践していく事は、より倫理的なAIの使い方に進歩していく過程の一部にすぎません。このアプローチには、AIアプリケーションによる人々の健康への配慮や、人々のライフスタイルにどのような影響をAIが与えるかをより慎重に検討し、AIを改善していく事が意図されています。