人工知能とデータサイエンスの2019年の主な進展と2020年の予測Industry編(3/3)

１．人工知能とデータサイエンスの2019年の主な進展と2020年の予測Industry編(3/3)まとめ

・文章または音声による自然言語処理は「市民データサイエンティスト」のブームを促進
・2020年は低消費電力で安価なデバイスにAIが展開されるのを目にするようになる
・DevOpsのデータ版であるDataOpsに関する理解と名称が徐々に市民権を得てきている

２．Beforeコロナ時代の2020年予測

以下、www.kdnuggets.comより「Industry AI, Analytics, Machine Learning, Data Science Predictions for 2020」の意訳です。元記事の投稿は2019年12月、Gregory Piatetskyさんによる投稿です。

アイキャッチ画像のクレジットはPhoto by bantersnaps on Unsplash

(8)Izenda
2019が機械に関する年であったとしたら、2020は人々に関する年となります。

今年は、データ分析の際にAIと機械学習が本格的に使用されるのを見る事になるでしょう。その結果、これまで以上に迅速に(そしてより価値のある)洞察が得られるようになります。

次のステップは、そのプロセスを民主化することです。高度なスキルを持つ従業員からデータプロジェクトの負担が取り除かれ、非技術的なエンドユーザーが同程度の洞察を発見できるようになります。追加のデータアナリストを雇う必要はありません。問い合わせ言語についてユーザーをトレーニングする必要はありません。ユーザーは、Googleを使用するのと同じくらい簡単にデータを探索できます。

データサイエンスの民主化
テキストまたは音声による自然言語処理(NLP)は、「市民データサイエンティスト」のブームを促進するのに役立ちます。また、いくつかのBIツールにはすでにプラットフォームにNLP機能が追加されていますが、そこにはそれらが利用できない1つの原因、つまり価格設定があります。2020年には、数万ドルのコストがかかるツールと同様の能力と機能を備えた手頃な価格のSaaS BIツールが登場し始めます。機械学習機能とセルフサービス機能のすべてを手頃な価格のプラットフォームで組み合わせることで、あらゆる規模の企業に、データから実用的な洞察を見つける力が与えられます。

(9)Jeff Catlin, CEO of Lexalytics
テキストに焦点を当てたAI/MLビジネスを運営する人間の見立てでは、2019年は2つのトレンドが飛び出しました。

BERTやXLNetなどのモデルの浸透、そして、データサイエンティストの注目すべき2019年後半における転換は、全てを自分で書く事からAIツールとプラットフォームを使用して問題の解決を図る事への移行です。

2つは関連しています：BERTはトレーニングデータの一部を使用して優れた結果を提供するという点で大きな変化をもたらしますが、そのやり方に熟練する事が技術的に非常に重要です。従って、全てが最初から組み込まれているプラットフォームへの転換が発生しています。

2020年には、AIは次の10年の決定的な技術としての地位を固めるでしょう。供給会社は魔法のようにコストを削減し、AIが人間を助けることができると言う正しいメッセージを通じて、彼らの仕事をより速く、よりよくします。

また、自然言語処理(NLP)はRPA(ロボティック・プロセス・オートメーション、業務処理を自動化する事)の大部分を占めるようになりますが、ベンダーはまだNLPを機能として取り込めていません。企業が大規模なプロセスを自動化するにつれて、オンプレミス+ハイブリッドクラウドオプション、統合が容易なAPI、カスタマイズ性、迅速なROIを提供するNLPベンダーが顧客の要望に応えるようになります。

(10)MathWorksの製品管理シニアマネージャ, Bruce Tannenbaum
・AIが職場全体でより利用しやすくなります。
AI関連の産業の成長が続く中、テクノロジーはデータサイエンスの領域を超えて拡大し、医療機器、自動車設計、職場の安全などのアプリケーションに影響を与えるようになるでしょう。

・AIは低消費電力で安価な組み込みデバイスに展開されるようになります。
2020年は低消費電力で安価なデバイスにAIが展開されるのを目にするようになります。AIは通常、浮動小数点演算を使用してモデルのより高い精度と簡単なトレーニングを実現しており、固定小数点演算を使用する低コストで低消費電力なデバイスでは使われていませんでした。ソフトウェアツールの最近の進歩により、さまざまなレベルの固定小数点演算によるAI推論モデルがサポートされるようになりました。

・強化学習は活躍の舞台をゲームから実際の産業用アプリケーションに移行します
2020年に強化学習(RL:Reinforcement Learning)は、ビデオゲームのプレイから、特に自動運転、自律システム、制御設計、およびロボット工学向けの実際の産業用アプリケーションで動作するように変化します。自動運転システムでドライバーを手助けするなど、RLはより大きなシステムを改善するための部品として使用され、成功するでしょう。

・シミュレーションがAIの採用を成功させるための障壁を(データ品質の欠如)低くします
アナリスト調査によると、データ品質はAIの採用を成功させる上での最大の障壁です。通常のシステム運用操作では、大量の使用可能なデータが生成されます。

ただし、多くの場合、異常または重大な障害状態のデータを見つけるのは困難で、しかしながらこのような異常時のデータは重要です。厳密なAIモデルをトレーニングするためにはこの種のデータが大量に必要であり、シミュレーションはデータをAIのために用意し、2020年にはこのデータ品質に関する障壁を下げのに役立つでしょう。

(11)Perconaの最高経験責任者であるMatt Yonkovit
データベースはより自律的になるでしょう。

データベースの実装領域、特にクラウドの周りにはスキルをもった開発者が不足しています。より多くの企業がデータを活用したいと考えていますが、望ましい速度でデータ操作を正常に実行するのは難しいと感じています。アプリケーションと一緒にデータベースを選択及び実行する開発者は、データベース管理業務を行わずにデータベースを機能させたいと考えています。

データベースベンダーはこれまでより多くの管理サービスを立ち上げることで対応してきましたが、今回は問題が別の場所に移動する可能性があります。今年、企業はデータベース管理を自動化し、これらのインスタンスを自律的かつ自己修復する方法について話し始めました。これは、Oracleの顧客カンファレンスで大きなテーマでした。私達Perconaでは、クラウド内のデータベースをより自律的にするための独自のイニシアチブを立ち上げました。

来年は、速度の要望を満たすために、より自律的なデータベースサービスが利用可能になります。ただし、ここで注意すべき重要なことは、この自律サービスがどのように設計および提供されるかです。大多数の人にとって素晴らしい事であっても、全ての人に適切とは限りません。

(12)SisuのCEO, Peter Bailis
この約束されたデータの黄金時代を求める顧客と私達の取り組みから、2020年には4つの主要な変化が勢いを増していることがわかります。新しい分析業務の台頭から始まり、ダッシュボードからより診断的な分析アプローチへと焦点が変化しています。より有用な事実の要求、および新しい役割の出現、運用アナリストです。

1)新しい、より柔軟な分析業務の登場。Redshift、Snowflake、BigQueryなどのクラウドデータウェアハウスへの投資を皮切りに、企業は最新のデータパイプラインと、FivetranやStitchなどのETL(データをシステム間でコピーするために使用するミドルウェア。ビッグデータを単純コピーすると遅延が発生したりシステム間のフォーマットの差異を埋めるために使われる)を採用して、これらの構造化ストレージソリューションにより多くのデータを集約しています。次は何でしょうか？企業は、豊富なデータの流入に対処するために、診断ツールを再構築しています。

一般的な組織では、数十のデータソースからのデータをほぼリアルタイムで処理するために、ITチームとデータチームは4つの主要なレイヤーを中心に分析インフラストラクチャを再構築しています。

1-1)Snowflake、BigQuery、Redshift、Azureなどのクラウドデータウェアハウス
1-2)FivetranやStitchなどのデータパイプラインツール
1-3)Lookerのような柔軟なダッシュボードとレポートツール
1-4)アナリストとBIチームの能力を強化する診断分析ツール

2020年以降、経営管理が最前線に戻ってきます。分析と診断のプラットフォームが拡大するにつれて、データから導き出された事実がビジネス内でよりシームレスに共有されます。

データ統治ツールは、データの機密性、適切な使用、および整合性が裏方に戻るよう促すので役立ちます。2020年には、企業が分析をどのように使用して認識するかが変化します。

(2)ダッシュボードを超えた診断
インフラストラクチャの変更と合わせて、基準が変化している理由と、それらの変化が日常のビジネスオペレーションにとって何を意味するのかを尋ねる経営会議が見られるようになります。

データを効果的に使用する能力に基いた差別化が行われており、成功する企業は、データを受動的な資産と考える事を止め、競争力の源泉として考える必要があります。

(3)運用アナリストの台頭
データ分析の未来は、運用アナリストの台頭が見られるようになる事です。データはもはやデータサイエンティストの専任領域ではありません。組織の誰もが日常的にデータアナリストのように行動し始め、特定のユースケースに焦点を当てた新しいスキルとツールが出現することがわかります。傾向、変化を分析し、データを使用して影響力のある意思決定を行うことは、新入社員の規範と期待になります。ビジネスアナリストやマーケティング分析チームに限定されなくなりました。

(12)StreamSetsのProducts VP, Kirit Basu
2020年にはDataOpsが認知されるようになります

組織が2020年以降にデータ利用を拡大し始め、分析の野心が高まるにつれ、DataOpsが最新のデータ分析に関連する変化の速度、断片化、変化のペースを克服するための具体的な手法として認識されます。

調査会社Gartnerによれば「DataOps」の検索数はすでに2019年に3倍になっています。更に、StreamSetsは、DataOpsの演習を始めている重要なユーザー集団を認識しています。

ベンダーはDataOpsが実現出来る事をPRしてこの分野に参入してきており、多くのベンダーがデータ管理に関する修養を会得するために中小企業を買収しています。最後に、いくつかのDataOps求人情報が出現し始めています。

これら全ては「DataOps」に関する理解と名称の認知が広がっている事を意味しており、データ駆動型組織が「DataOps」を名前を参照するようになっている事を示唆しています。

訳注：
DevOpsという開発からリリースまでを迅速に行うための開発手法があるのですが、それのデータ版としてDataOpsと言う造語が出来たけれども、DataOpsと言う単語がかなり市民権を得てきてますねって指摘と思われます。本稿の前半の方でも出てきてますが、AIOpsとかMLOpsなんて言い方をしている場合もあります。

(13)StreamSetsの共同創設者兼CTO、Arvind Prabhakar
企業はApache Sparkスキルのギャップを埋める必要があります
2020年には、Apache Sparkの深い技術的理解を必要とせずに、企業がコアビジネスの問題を解決し、データから洞察を引き出すことができるようになるテクノロジーが増えると見ています。企業は、Apache Sparkのようなツールを、特別なスキルのセットなしで利用する必要があります。これにより、組織は継続的なデータと組織の監視を実現し、すべての操作とアプリケーションがビジネスでどのように実行されているかを確認できます。

訳注：
Apache Sparkは「機械学習でも使いやすくしたHadoop」みたいなものです。Hadoopは何百台ものコンピュータで、同時平行に計算を実行させる仕組みです。Hadoopの元ネタはJeffとSanjayが作ったMapReduceです。