AI、データサイエンス、分析関連の2018年における主な発展と2019年の主な動向(2/2)

１．AI、データサイエンス、分析関連の2018年における主な発展と2019年の主な動向(2/2)まとめ

・専門家による2018年のデータサイエンスと統計関連であった出来事のまとめ
・AIのリスクは0を目指すのではなく現在の発生リスクと比較されるべき
・MOOC、デジタルクラス、オンラインコースなどで学ぶ前に熟考しよう

２．AI、データサイエンス、分析関連の2018年の動向と2019年の展望

以下、www.kdnuggets.comより「AI, Data Science, Analytics Main Developments in 2018 and Key Trends for 2019」の意訳です。元記事投稿は2018年12月、Gregory Piatetskyさんによる投稿で「2018年の機械学習とAIの主な進歩と2019年の主な傾向」に比べるとデータサイエンスよりの内容です。前半はこちら。

７）Gregory Piatetsky(@kdnuggets)は、KDnuggetsのプレジデント。データサイエンティスト、KDDカンファレンスとSIGKDDの共同創設者、そしてLinkedInの「2018 Top Voices in Data Science and Analytics」のNo1

2018年の主な開発
・2018年5月に発効したGDPR(EU一般データ保護規則)は、ヨーロッパだけでなく米国や他の地域でも重要な節目となり、多くの企業がプライバシーポリシーを更新しました。しかし、消費者のプライバシーが実際に改善されるのか、それとも表紙だけが新しくなり、その下で従来と同じビジネスが行われる事になるのかは、まだわかっていません。

・データサイエンスの民主化は続き、データサイエンスをより平易にするより多くのツールが発表されました。AWSのイベントで発表された主要な新しいツールに注目してください。

AIのリスク：自動運転車が自転車と歩いている歩行者を混同したとき、自動運転車による最初の死亡が起こりました。これはAIの避けられないリスクにスポットライトを当てました。同時に、自動運転車(および自動化されたAI)は実現不可能なエラー発生率0を基準として課せられるべきではなく、現在のリスクと比較されるべきです。たとえば、人間の運転は非常に危険です。2017年の米国での交通事故死者数は3万7000人です。

2019年の主な傾向
・データサイエンスのオートメーションは加速し続けますが、データサイエンティストの仕事は少なくとも今後数年間は完全に自動化される事はないでしょう。

・AIの進歩と誇大広告：AIの進歩は現実のものですが、AIの誇大広告は現実より更に速く成長するでしょう。

・多くの中国企業が米国からのコピーではなく独自のイノベーションを行いはじめる事で、中国はAI業界の主要なプレーヤーとなるでしょう。

・強化学習はAIの進歩においてますます中心的な役割を果たすでしょう。例えば、「Montezuma’s Revenge(訳注：日本で言えばスぺランカー的なすぐ主人公が死ぬゲーム。2016年頃はAIに一億回プレイさせてようやくレベル2を突破したなんて事が話題になったくらいAIにとっても難しいとされていた)」はレベル100に到達し、これまでのコンピューターまたは人間を達成した記録をはるかに超える驚くべき進歩を強化学習は成し遂げました。

８）Bill Schmarzo（@schmarzo）は、IoT＆Analytics Hitachi VantaraのCTOです。

2018年におけるビッグデータ、データサイエンスまたは分析の主な発展

ビジネス界のステークスホルダー達の機械学習およびディープラーニングの可能性に対する意識の劇的な向上。これは、大量に公開されたユースケースによって促進されました。

データレイクは依然として不適当な役割を期待されているツールです。データウェアハウス運用費や新規ETL(JOB連携システム)構築費用など高価になりがちなコストを削減する手段として、データレイクを検討する組織が多すぎます。データレイクがデータサイエンスチームとステークスホルダー達がビジネス価値を創造し、推進するための素晴らしくコラボレーティブな価値創造プラットフォームであると理解してはいけません。

略注：データレイクとは「頻繁に使う程ではないけれど圧縮してバックアップにしまい込んでしまうのも惜しいビッグデータ」を「とりあえず割と使いやすい形のままで貯蔵しておく貯水湖(Lake)」的なイメージです。しかし、実際に使う時になると「ソート機能がないので別途新規に作り込みが必要になる」等々の「アレ？実際にデータを活用しようとする際にこんなに手間がかかるんだったらバックアップストレージに保管しておいた方が安価で良かったんじゃないの？」的な事態になる事を指摘してるんだと思いますが、これもビッグデータあるあるですね。

2019年の主な傾向
大手企業であれば、ビッグデータおよびデータサイエンスを主導する部署は、IT部門ではなく業務部門になります。ビジネスリーダーが、ビッグデータ、IoT、およびデータサイエンス(機械学習、ディープラーニング、人工知能)で成果を出せる可能性があるビジネス分野の特定、検証、検証、評価、および優先順位付けを行うようになるでしょう。

重要なビジネスプロセスや運用プロセスを最適化するためにデータサイエンスを使用するだけではありません。(運用プロセス改善は投資利益率改善に繋がり依然として良いとっかかりではあります）。大手企業は、データに埋め込まれた顧客、製品、および運用上の洞察が、新たな収益源を生み出す推進力であることを認識しています。

９）Kate Strachnyi(@StorybyData)は、データ視覚化スペシャリスト。「The Disruptors: Data Science Leaders」と「Journey to Data Scientist」の著者。video podcast「Humans of Data Science」のホスト。

2018年におけるデータサイエンスと分析の主な発展

・一般データ保護規制(GDPR):2018年5月に施行されたEUの規制は、EU市民に彼らの個人情報を管理する手段を提供するように設計された一連の規則です。これにより、他の地域でも同様の基準が設定されるようになりました。たとえば、カリフォルニアは独自のデジタルプライバシー法を可決しました。これにより、消費者は、自分たちについてどのような情報組織が収集しているのか、なぜそのデータを収集しているのか、そして誰と共有しているのかを知ることができます。

・セルフサービス型ビジネスインテリジェンス(BI)ツール：BIツールは、データアナリストやビジネスアナリストの間でさらに一般的になりつつあります。しかし、ツールのユーザーが、ツールが舞台裏で行っている分析を理解しているかどうかは不明です。ユーザーがツールにドラッグアンドドロップしてグラフをチャートを作成する方法を学ぶために必要な時間と、そのツールが実際に何を起こっているのか理解するために必要な時間との間にはギャップがあるようです。

2019年の主な動向
データの倫理とプライバシー：データを扱う際に倫理とプライバシーを考慮する事がますます注目されるようになるでしょう。データサイエンスプロセスのあらゆる段階でです。データを扱う人々は、彼らが大きな力を持っていて、彼らの仕事の影響を考慮する必要があることを理解する必要があります。私たちの世界がますますデジタル化するにつれて、これは個人、企業、そして政府にとってますます大きな関心事です。

プロセスの自動化：企業は、コストを削減し、より効率的になるために、プロセスを自動化し続けるでしょう。この自動化は自動化されるプロセスを担当している個人の失業を招く可能性があります。人々はこの急速に変化する環境の中で、新しいスキルを学ぶことに注力する必要があり、スキルセットを最新状態に保つための需要が高まっていきます。

１０）Ronald van Loon(@Ronald_vanLoon)は広告ディレクター、成功を生み出すデータ駆動型企業の支援、Top10ビッグデータ、データサイエンス、IoT、AIインフルエンサー

2018年、エンドツーエンドのデータ管理が成長しました。企業は全てのデータソースを使用して信頼できる洞察を得て、分析の成熟度を高めながら、デジタルエコノミーに沿ったインフラストラクチャとビジネスモデル保持するようになりました。機械学習は、全てのソフトウェアベンダが業界固有のソリューションのアプリケーションに組み込んだため、広く受け入れられるようになりました。

2019年、次世代のディープラーニングアプリケーションをサポートするための洗練されたアプローチとして、より統合されたハードウェアとソフトウェアのフレームワークが出現し、それがさらに革新をもたらすでしょう。

ディープラーニングアプリケーションでは、新しいAIアーキテクチャを推進するために、完全に最適化されたハードウェアとソフトウェアが必要になります。ディープラーニングのパフォーマンスと機能を加速させたいと言う需要が高まるにつれ、全ての業界でベンダーによるこのハードウェアとソフトウェアの両方に精通したアプローチの台頭が見られるようになるでしょう。

リアルタイムエッジ分析は、IoTデバイスの成長とともに指数関数的に成長し、リアルタイム分析をより簡単にし、リアルタイムの洞察に基づいた迅速な対応を促進するようになるでしょう。

１１）Favio Vazquez(@FavioVaz)は、データサイエンティスト、物理学者および計算機技術者、Ciencia y Datosの創始者です。

2018年はデータサイエンス(DS)にとって素晴らしい年で、理論と実践の両面で大きな進歩を遂げました。DSのためのいくつかの方法論が提案されました。それは分野を実際の科学に変えるのを助けるかもしれません。私は1年以上それについて話しています、そして最近より多くの人がそれについて議論しているのを見ました。機械学習(ML)に関しては、AutoMLは巨大であり、それにはディープラーニングの自動化も含まれます。

2019年の主な傾向
AutoX：より多くの企業が自社の技術を積み重ねたテクノロジとライブラリを開発し、自動機械学習と自動ディープラーニングを実現するでしょう。ここでのXは、この自動ツールがデータの取り込み、データの統合、データのクレンジング、調査、および展開に拡張されることを意味します。自動化はここにやってきます。

セマンティックテクノロジ：今年の私にとって最も興味深い発見は、DSとセマンティクスの関係です。データの世界では新しい分野ではありませんが、セマンティクス、オントロジー、ナレッジグラフ、およびDSとMLとの関連の分野に関心を持つ人が増えています。

訳注：Semantic、セマンティックは「意味的な」と言う意味なのですが、日本語の文脈に入れるととっても妙な日本語になる困った単語です。例えば、セマンティックテクノロジを敢えて訳すと「意味を解釈する技術」になります。この訳はわかりやすいですが、本文中に「セマンティック」と言う単語が頻出すると一々「意味を解釈する」と入れる事になってしまって読み難い文になり、どの程度意訳するべきかが難しいのです。

プログラミングする機会の減少：これを言うのは辛い事ですが、DSプロセスのほぼすべてのステップが自動化されるため、プログラミングする機会は日々少なくなります。私たちはコードを作成するためのツールを持つ事になるでしょう、そしてそのツールは私たちが欲しいものを言葉で伝えれば、それを理解し、問い合わせクエリや文章、完全なプログラムを出力してくれるでしょう。私は「プログラミング」を学ぶことはまだ非常に重要なことだと思っていますが、すぐにもっと簡単に事となるでしょう。

デジタル教育：これは年々成長していますが、来年はMOOC、デジタルクラス、オンラインコースなど、これまで以上に多くの人々が参加することになるでしょう。これを「教育の民主化」と呼ぶ事も出来るでしょう。そして、それは大部分において本当であると私は思います。しかし、私は学習している全ての人々に伝えたいメッセージがあります。何を視聴し、どのように学ぶかについて注意深くなってください。時間とお金を費やす前にコースについて調べてください。良いものはあなたの人生を良い方向に変えますが、他のものは非常に危険です。

１２）Jen Underwood(@idigdata)は、DataRobotのシニアディレクターで、Impact Analytix、LLCの創設者です。

AIの誇大広告と変革の影響は2018年のいたるところで見られました。数年前、ビッグデータが大流行し、次にクラウドが、そして今や機械学習がその段階を支配しています。アプリ、ボット、およびビジネスインテリジェンスソリューションには、これまでずっとAIが使われてきました。今日ではビールにさえAIが導入されています。

今年もオートメーション市場の勢いが増加しました。今日の多くの機械学習ソリューションは人間が手で行っていますが、プロジェクトのライフサイクル全体にわたって自動化されたデータ分析(AutoML)がやってきます。単純なドラッグアンドドロップ、基本モデルを作成するボタンクリックウィザードから高度な特徴エンジニアリング、モデル検索、ハイパーパラメータの調整、デプロイ、モデル管理、監視まで、AutoMLの活躍範囲は多様化します。

2019年には、統治機構による市民データの利用に関する関心、プライバシー、偏見、倫理、およびDeep fakesの興隆により、私達のAIに対する信頼が試される事になります。ブロックチェーンなどの革新的なテクノロジによって、データの保存、共有、追跡の方法が変わり始めます。

私はまた、非データサイエンティストが理解し、説明し、信頼することができる、公正で、透明で、説明責任のあるAIがもっと重視される事を期待しています。データ科学者の専門用語を他のすべての人にとって共通の言語に翻訳しようとすると、現在大きなギャップがあります。

組織が私たちの不完全な世界でAIを採用する一方で、同時に市民データサイエンティストによるデータ分析も広まっているので、AIが誤った使われ方で苦痛の原因となる事を避けるために、広く一般市民もデータリテラシーを高める必要があります。

３．AI、データサイエンス、分析関連の2018年における主な発展と2019年の主な動向(2/2)感想

立場によって注目ポイントが異なるところが相変わらず楽しいですが、心に響いたのは「AIのリスクは0を目指すのではなく現在の発生リスクと比較されるべき」の一言です。共感できる部分もあるのですが、やっぱり開発する側の意見ですよね。使う側、もしくは被害を受けた側としては納得感はないと思います。

「銃が人を殺すのではない、人が人を殺すのだ」の意見により銃規制が進まないアメリカでは「AIが人を殺すのではない、人が人を殺すのだ」になるのでしょうか。しかし、AIは自律的に動いてしまうので、その場合、誰の責任となっていくのでしょうか。

４．AI、データサイエンス、分析関連の2018年における主な発展と2019年の主な動向(2/2)まとめ

１）www.kdnuggets.com
AI, Data Science, Analytics Main Developments in 2018 and Key Trends for 2019