2022年のデータサイエンス、機械学習、AI、アナリティクスの主要な進展(2/2)

stable-diffusion-new-year-2023-nausicaa-rabbitAI関連その他

1.2022年のデータサイエンス、機械学習、AI、アナリティクスの主要な進展(2/2)まとめ

・ローコード/ノーコードのデータサイエンス・プラットフォームの採用が進む
・ジェネレーティブアートは言語を使って高品質なアート生成を可能にした
・ChatGPTがアシスタント、Google検索の代替、コードレビューなどで活用される

2.スペシャルゲストによる2021年のデータサイエンス、機械学習、AI、アナリティクス業界の振り返り

以下、www.kdnuggets.comより「Key Data Science, Machine Learning, AI and Analytics Developments of 2022」の意訳です。元記事は2022年12月29日、Matthew Mayoさんによる投稿です。

kdnuggetsの編集者の方達の意見が私の考えに近かったです。データの民主化は数年前から提唱されてきましたが、2022年はローコード、ノーコード、Midjourney、GitHub Copilot、ChatGPTなどの専門家でなくとも便利に使えるツールの民主化/アプリの民主化が一気に進んだ年だったのかなと思います。

また、今回の振り返り記事は実務家視点よりで研究者視点が少なかったですが、一点あげるとしたらSparse化の促進、つまり密なモデル/データを疎らなモデル/データに置き換えて規模/量を増やす傾向かなと思います。リサーチ系の2022年の総括については例年通りJeff Deanが投稿してくれると思うので、そちらをお待ちください。

アイキャッチ画像はstable diffusion の生成画像

(8)Rosaria SilipoとRoberto Cadili

Rosaria SilipoとRoberto Cadiliは、KNIMEのデータサイエンスの伝道師です。彼らは、2022年に起こったデータサイエンスの重要な側面について、この共同見解を寄稿しています。

2022年、私たちはAIアルゴリズムとデータサイエンス技術の採用が、データに関心を持つ市民と大企業の両方で、業界を越えて強固に進化しつつあることを目の当たりにしました。医師、教師、会計士、コンサルタント、監査人、弁護士、その他多くの専門職の人物など、従来の一人親方ビジネスがデータの価値を理解し、革新と競争力維持のためにデータ情報文化を取り込みました。

このギャップを埋め、スキルアップのコスト(習得時間と費用)を削減し、AI駆動型ソリューションのパワーを活用するために、ローコード/ノーコードのデータサイエンス・プラットフォームの採用がこれまで以上に顕著になりました。

直感的なビジュアルインターフェースを通じて、これらのプラットフォームは、データに関心を持つ市民がデータに関する作業フローを構築し、ソフトウェア専門家やデータサイエンティストとコラボレーションすることを可能にし、彼らの仕事のパフォーマンスに雪だるま式のポジティブな効果を誘発するのです。

一方、前年にデータ主導の意思決定への移行を開始した組織は、2022年に高度なAIソリューションの導入を強化・拡大しました。AIの成熟に伴い、信頼性の高いデプロイメント、開発の俊敏性の向上、運用効率の改善が必要となり、CI/CDの手順とベストプラクティスの導入が誘発されました。

AIが成熟した組織は、データサイエンスを自動的にプロダクション化し、常に開発、テスト、統合、デプロイ、監視、バージョン管理を行うために、直感的なSaaSテクノロジーにますます依存し、チームの連携を強化し、集中管理およびデータガバナンスによってITボトルネックを最小限に抑え、任意の数のユーザー、任意の数のワークフローを単一環境で実行できるよう拡張しています。

データサイエンス業務の複雑化・多様化は、分析業界における役割の標準化を先鋭化させました。2022年、組織は「滅多に見つからないデータサイエンティスト」という本質的に誤った概念を捨て、異なるデータ専門家の姿と標準化されたデータの役割に向かいました。

データキュレーター、データエンジニア、データサイエンティスト、データアナリスト、オートメーションスペシャリスト、MLエンジニアなど、ほんの数名を挙げるだけでも、それぞれが特定の教育背景と一連のスキルを持つ職種として認知されるようになりました。

さらに、組織のAIが成熟し、データ市民が登場したことで、多くのデータリテラシーの取り組みが支持されるようになりました。このニーズに従い、また、コロナ後のシナリオを考慮して、コース、イベント、書籍、ビデオ、ラーニングソン、その他のイニシアティブの数が、特に2022年の後半に急増し、需要に追いつくようになりました。

(9)Clément Stenac

Clément StenacはDataikuの共同創設者兼CTOです。分析の実用化に関する予測について語ります。

2023年は、企業のあらゆる業務で分析とMLを広く活用するための運用化が加速する年になるでしょう。

すでに数年前から、早期導入企業は、財務報告からデータクレンジング、文書解析に至るまで、多くの雑務を自動化し、より価値の高い活動に集中するためのシステムを構築してきました。

また、自動化と従来の分析、AIやMLを組み合わせた取り組みも行われています。その結果、効率と品質管理が向上し、次の優れたアイデアや製品の開発に専念できるようになったと報告されています。また、より深い仕事へと移行することで、より高い達成感を得ることができ、自分の仕事に価値と意味があると感じられるようになります。

これらのことは、保守的な企業にとって、これらの取り組みに多額の投資を行う強い動機付けとなります。また、自動化、分析、洞察力の向上に熱心な従業員によって加速されることも多いです。このような草の根的な取り組みであれば、組織全体から賛同を得ることができます。このいったイニシアティブの成功は、適切なコントロールとガバナンスを維持しながら、組織全体にその力を行き渡らせるための適切なツールと標準プロセス(MLOps、データOps、時にはXOpsとも呼ばれます)に依存しています。

(10)Kate Strachnyi

続いて、Kate Strachnyiです。KateはDATAcatedの創設者であり、ColorWiseの著者でもあります。Kateは、今年の膨大な数の分析とデータサイエンスのビジネスに関連する問題について議論しました。

2022年は、あらゆるレベルや企業で、データ分析の専門家の解雇や退職が相次ぎました。多くの企業は優秀な人材を確保するため、トレーニングプログラムに投資し、従業員に成長の機会を提供することに努めています。一方、景気後退を恐れて支出を減らし、人材への投資を控えている企業もあります。

経済的な圧力に加え、ハイテク企業は、従業員にリモートワークをさせるか、少なくともパートタイムでオフィスに戻すか、という難しい決断に迫られています。柔軟性を適切にバランスよく提供する企業は、優秀な人材の獲得競争に勝つことができます。

データ分析、データサイエンス、AI/MLの専門家に対する需要は堅調に推移しています。反復的な作業のAIへの依存度が高まっているため、分析すべきデータは昨年よりさらに増えているためです。

私が注目しているのは、シニアではないデータサイエンティストやデータエンジニアが大半を占める人材の供給と、採用企業のニーズを満たすシニアデータ専門家の需要との間に、まだ断絶が見られるということです。新しい年がどんな年になるのか、楽しみです。

(11)Moses Guttmann

ClearMLのCEO兼共同創設者であるMoses Guttmannは、自動化された機械学習ワークフローと人材確保の終焉に関する次のような予測を寄稿しています。

・機械学習ワークフローの自動化がより重要になる
2022年後半に多くのトップテクノロジー企業がレイオフを発表していますが、これらの企業のうち、最も優秀な機械学習人材をレイオフしている企業はないでしょう。しかし、技術チームの人員が減少したその分を補うために、企業は生産性を維持し、プロジェクトを確実に完了させるために、自動化にさらに傾注しなければならないでしょう。また、機械学習技術を利用する企業は、パフォーマンスを監視・管理するシステムを導入し、機械学習やデータサイエンスのチームを管理する方法について、よりデータに基づいた決定を下すようになると予想されます。目標を明確に定義することで、これらの技術チームは、機械学習のROIをより深く理解するために、KPIをより重視する必要があります。機械学習のベンチマークがあいまいだった時代は終わりました。・機械学習人材をため込む時代はもう終わり
最近のレイオフ、特に機械学習を扱う人たちは、何年もMLを扱ってきた長期的なスタッフとは対照的に、最も新しく採用された人たちである可能性が高いです。この10年でMLやAIがより一般的な技術になったため、多くの大手テック企業がこの種の労働者を雇い始めたのは、金銭的コストを処理でき、競合他社から遠ざけられるからで、必ずしも必要だからではありません。この観点から、大企業内の余剰分を考えれば、多くのML人材が解雇されるのは驚くことではありません。しかし、ML人材の囲い込みの時代が終わると、スタートアップ企業に新たなイノベーションとチャンスの波をもたらすかもしれません。多くの人材が仕事を探している今、これらの人材の多くが大企業から中小企業やスタートアップに流出することが予想されるのです。

(12)Abid Ali Awan

Abid Ali Awanは、KDnuggetsのアシスタント編集者です。Abidは、2022年の重要なトピックをいくつか取り上げています。

2022年、MLOpsツール、ジェネレーティブアート、大規模言語モデル、音声認識の分野で多くの最先端開発が行われました。OpenAIとDeepmindは、AI開発の最前線にいました。彼らは常に、業界全体を変革するような最先端のモデルを発表しています。

・MLOpsツールの変化
以前は、モデルを本番環境にスムーズにデプロイするために利用できるオープンソースツールが限られていました。DevOpsツールを使うか、独自のソリューションを考え出すしかありませんでした。ワンストップのソリューションがなかったのです。実験の追跡、メタデータ管理、MLパイプライン、データとパイプラインのバージョン管理、モデルモニタリングのために、複数のMLOpsツールを使用しなければならなかったのです。
2022年にはすべてが変わりました。製品ベースの企業は、DagsHub、Kubeflow、BentoMLなど、データ科学者や機械学習エンジニアが1つのプラットフォームですべてのMLOpsタスクを実行するための機能をより多く統合しています。開発者やソフトウェアエンジニアではなく、データサイエンティストやMLエンジニアをターゲットにする企業が増えているのが分かるでしょう。

・ジェネレーティブアート
DALL.E 2はOpenAIによって紹介されましたが、その直後から自然言語を使って高品質なアートを生成する人たちを目にするようになりました。とにかくすごかったです。発表後すぐに、DALL.E 2のオープンソース版であるジェネレーティブアート用のStable Diffusionを見る事になりました。
オンラインデモであるDiffuse The Rest、RunwayのInpainting機能、Stable Diffusionを使ったDepth2imgなど、モデルアーキテクチャを理解し、ユニークなソリューションを考え出すことができます。さらに、複数の企業がジェネレーティブ・アートを自社のエコシステムに統合しているのを目の当たりにしています。Stable DiffusionとDALL E 2は、どちらも現在主流となっています。

・自然言語処理
私たちは、GitHub Copilotがコード生成のために大規模な言語モデルを使用しているのを見てきました。これは、私たちのコードの書き方を完全に変えてしまいました。GitHub CopilotはOpenAI Codexを使って、エディターからリアルタイムでコードや関数全体を提案してくれます。

そしてOpenAIは、英語の音声認識で人間レベルの堅牢性と精度に近づいたWhisperを発表しました。英語に関してはWav2Vec2より少し優れています。

最後にOpenAIは、GPT3よりも優れたChatGPTを発表しました。会話に最適化されており、ChatGPTがいかに正確に回答したかを賞賛するツイートや投稿を多く見かけます。汎用人工知能(AGI)にはまだまだ遠く、創造性や理解力の点で人間を凌駕する言語モデルの構築には程遠いのが現状です。

(13)Matthew Mayo

Matthew Mayoはデータサイエンティストであり、KDnuggetsの編集長を務めています。

11月末まで、今年の大半は、テキストから画像への変換技術とその応用が、間違いなく今年の開発であったと言ってよいでしょう。皆さんも今年一年、いろいろなものに出会いました。前作から大きく進化した「DALL-E 2」がありました。Midjourneyは、その洗練されたスタイリッシュな出力で賞を獲得しました。Craiyon(別名DALL-E mini)は、たとえ低品質のレンダリング画像であっても、これらのモデルへのアクセスをより迅速かつ容易にしました。そして、StabilityAI社のStable Diffusionが登場しました。Stable Diffusionはオープンソースで、その気になれば自分のマシンで自由に使うことができます。

これらの技術の成果は、それぞれ非常に素晴らしいものです。長い間、2022年の最大の話題は圧倒的にこれだろうと思われていました。

しかし、11月30日、OpenAIはChatGPTへのアクセスを可能にするとともに、ブログ記事を公開しました。本記事が掲載された時点で、ChatGPTが一般公開されてまだ1カ月しか経っていないとは信じがたいです。

しかし、ChatGPTが2022年のデータサイエンス、機械学習、AI、分析の分野での最大の発展であると考えることは難しくありません。確かに、GPT3のような巨人の肩の上に構築されていますが、だからといって、それに劣らず素晴らしいのです。このモデルとの「チャット」による様々な興味深い結果をいくつかリンクしておきますが、おそらく皆さんも多く目にしていることでしょう。生産性向上ツール、アシスタント、Googleの代替、コードレビューなど、さまざまな場面で活用されています。

私が思うに、ChatGPTは今年の後半に出現して2022年の主要な進展としての栄誉を手に入れたという事実を否定する事はできません。

(14)スペシャルゲスト:ChatGPT

ついでながら、今年最後の回答者はChatGPTです。2022年の主要な開発について意見を求めました。

「2022年のデータサイエンス、機械学習、AI、アナリティクスの主要な動きは何だったと思いますか?」

申し訳ないのですが、私の知識の切り口は2021年なので、2022年の動向については情報を提供することができません。しかし、過去に起こったデータサイエンス、機械学習、AI、アナリティクスの重要な動きについてはお伝えすることができます。例えば、深層学習技術の発展、機械学習やAI応用におけるビッグデータやクラウドコンピューティングの利用拡大、ビジネスや産業における自動化や機械学習の台頭、さまざまな分野でのデータ解析の利用拡大などが挙げられます。

この回答はひどく役に立つわけではありませんが、ともかく皆さんと結果を共有してみなければと思いました。

しかし、この結果を受けて、私たちはもう一度、今度は2021年について聞いてみたくなりました。

「2021年のデータサイエンス、機械学習、AI、アナリティクスの主要な開発は何だと思いますか?」

2021年のデータサイエンス、機械学習、AI、アナリティクスの分野では、いくつもの重要な進展がありました。いくつかの例を挙げます。

1. 自然言語処理やコンピュータビジョンのタスクにtransformersや他の高度なアーキテクチャを使用するなど、深層学習技術の継続的な成長と発展。

2. 金融、ヘルスケア、Eコマースなど様々な業界における機械学習やAIの導入が進んだ。

3. エッジコンピューティングが、リソースに制約のある環境においてAIや機械学習モデルを展開する際に重要な手段として台頭してきたこと。

4. 機械学習モデルの解釈可能性と説明責任を向上させるために、説明可能なAI(XAI)手法の利用が増加していること。

5.DaskやVaexなど、大規模なデータセットを効率的に処理できるデータ管理・分析用の新しいツールやフレームワークが開発されていること。

6.データプライバシーとセキュリティの重要性が高まり、機密データを保護し、データ漏洩を防止するための新たな技術の開発につながる。

7.マーケティング、サプライチェーンマネジメント、サイバーセキュリティなど、さまざまな分野でデータ分析の利用が進んでいること。

これは漠然としていますが、それなりに正確だと思います。ChatGPTは2021年に特定の何かに全力投球したいわけではなさそうです。

まあ、これはこれとして。私たち専門家チームの様々な意見が、皆さんの読書の楽しみに何かを提供できた事を願っています。

それでは、2023年にお会いしましょう!

3.2022年のデータサイエンス、機械学習、AI、アナリティクスの主要な進展(2/2)関連リンク

1)www.kdnuggets.com
Key Data Science, Machine Learning, AI and Analytics Developments of 2022

タイトルとURLをコピーしました