2022年のデータサイエンス、機械学習、AI、アナリティクスの主要な進展(1/2)

１．2022年のデータサイエンス、機械学習、AI、アナリティクスの主要な進展(1/2)まとめ

・特徴表現再利用への関心が高まり特徴表現保管庫(Feature Store)に注目が集まる
・優れたモデルの構築ではなく複雑なシステムを管理できるかが勝敗を分ける
・データを地理的／空間的情報と組み合わせる分析アプリケーションが実用化段階

２．2022年のデータサイエンス、機械学習、AI、アナリティクス業界の振り返り

以下、www.kdnuggets.comより「Key Data Science, Machine Learning, AI and Analytics Developments of 2022」の意訳です。元記事は2022年12月29日、Matthew Mayoさんによる投稿です。

世界を騒がせたイメージのある画像生成ＡＩに言及している人が一人もいないという事はAI/ML業界のすそ野がそれだけ広がって細分化されてきていると言う事なのでしょうか。

アイキャッチ画像はstable diffusion 2.1生成画像にアウトペインティングやインペインティングして頑張って生成した初日の出直前をイメージした画像

年末が間近に迫っていますが、KDnuggetsでは、以前から行っているように、さまざまな専門家に連絡を取り、次の質問について意見を求めました。

「2022年のデータサイエンス、機械学習、AI、アナリティクスの主要な進展は何だと思いますか？」

約400字の回答を求めました。回答は、以下にほぼアルファベット順で紹介しています。KDnuggets編集陣の意見と特別ゲストの回答が最後に控えています。また、いくつかの回答は、2023年の予測の領域にわずかに逸脱していますが、それらはあなたにとって利益となるために含まれていることに注意してください。

2023年が皆様にとって素晴らしい年になりますように。

(1)Anima Anandkumar

まず、Anima Anandkumarからのコメントです。Animaは、NVIDIAのML研究ディレクターであり、CaltechのBren Professorでもあります。Animaは、いくつかの具体的な予測を発表しています。

デジタルツイン(Digital twin：物理的資産やプロセスなどをデジタル的に複製したもの)の物理化：
気象・気候モデル、地震現象、材料特性など、複雑で様々な規模を持つ物理プロセスの大規模なデジタルツインが登場します。これにより、現在の科学シミュレーションが100万倍も高速化され、新たな科学的洞察や発見が可能になります。汎用的AIエージェント：
AIエージェントは、自然言語による指示と大規模な強化学習によって領域を限定しないタスクを解決し、基礎モデル(膨大な量のラベル付けされていないデータに対して大規模に学習させたAIモデル)を活用して、あらゆるタイプのリクエストを解析し、時間とともに新しいタイプの質問に適応できるエージェントを実現するようになります。

(2)Ryohei Fujimaki

次はdotDataのCEO兼Co-founderであるRyohei Fujimakiです。いくつかのテーマに触れていますが、共通するものが見受けられます。

2022年は世界経済にとって激動の1年でした。組織が経費節減と「少ない労力で多くのことを行う(doing more with less)」ことを重視し始めたため、データサイエンスの世界にも直接的な影響を及ぼしました。こうした変化は、2つの重要なトレンドを生み出しました。1つは、データチームが機械学習(ML:Machine Learning)特徴表現の再利用を増やし始めたこと、もう1つは、ML開発プロセスを最適化する新しいMLテクノロジー・ツールが普及し始めたことです。

特徴表現の再利用への関心が高まったことで、特徴表現保管庫(Feature Store)への投資がより重要視されるようになりました。しかし、この特徴表現保管庫への関心の高まりは、企業にとって新たな問題、すなわち、データサイエンティストやデータエンジニアを大量に雇用することなく、いかにして特徴表現保管庫に大量のデータを供給するかという問題を生じさせました。特徴表現保管庫の有用性を最大限に高めたいという欲求は、必然的に特徴表現発見や特徴表現エンジニアリングのプロセスを自動化・最適化する新しいツールやプラットフォームへの要求を引き起こしました。

2023年を迎えても「より少ない労力でより多くのことを行う」という議題は最優先事項として継続されるでしょう。このトレンドにより、MLモデルや高度な分析アプリケーションの開発など、データの分析と活用のためのプロセスの自動化を支援するテクノロジーへの投資が拡大すると予想されます。データサイエンティストやエンジニアが、より良く、より速く、そして専門家の助けを借りずに仕事をするためのプラットフォームは、今後も高い需要が続くと考えられます。

(3)Nikita Johnson

RE•WORKの創設者兼アドバイザーのNikita Johnsonは、2022年に重要だと感じたこと、そして2023年に向けてのパイプラインを、以下のように簡潔に表現しました。

今年、進展が見られたのは、責任あるAI(Responsible AI)です。
2023年は、すべての組織の標準になるという私たちの共通の目標を実現するために、企業統治への採用が加速され、具体的なフレームワークが導入される年になるはずです。

(4)Nava Levy

Nava Levy は、Redis のデータサイエンスと MLOps のデベロッパーアドボケートです。彼女は、リアルタイムのAI/MLの観点から、以下のような洞察を提供しています。

データサイエンス：ベクター類似性検索にベクターデータベースを応用

過去2-3年のデータサイエンスにおいて、私が考える最もエキサイティングな開発は、オープンソースの大規模な事前学習済みディープラーニングモデルの豊富さと、これらのモデル、フレームワーク、TensorflowやHugging Face(最近$100万ドルを調達した)のようなリポジトリのおかげで生成したembeddingsを、最低限の微調整で下流の様々なML用途に活用する方法です。

過去1年間、つまり2022年の主な新展は、これらのモデル、フレームワーク、embeddingsを、推薦システムや感情分析などのリアルタイム用途にも適用できるようになったこと、フィルタリング検索によるベクトルの類似性検索にベクトルデータベースを使用できるようになった事です。

embeddingsの適用範囲はリアルタイムの様々な用途に広げるだけでなく、データサイエンスや機械学習の専門家ではないソフトウェア開発者にも利用しやすいようになっています。開発者は、数行のコードで、あらゆるアプリケーションをAIで豊かにすることができ、開発者から複雑さを抽象化し、巨大な電力を必要とする、データ集約型のディープラーニングモデルを民主化するのに役立ちます。

この1年間で、テクノロジー企業やオープンソースライブラリ、ベンチャーキャピタル、スタートアップ企業がこのチャンスに飛びつくのを目の当たりにしてきました。ベクトルデータベース技術は成熟し始め、ベンチマークが発表されています。例えば、JinaAIが最近発表したベンチマークでは、100万個のベクトルembeddingsについて様々な技術を比較しています。これらのベンチマークは、応答時間と転送時間を重視すると同時に、高い精度を維持することを目的としています。

機械学習：エンタープライズ対応のFeature Storesの登場
機械学習エンジニアリングにとって、この2～3年で最もエキサイティングな展開は、機械学習オペレーション(MLOps)の出現と、これらのプラットフォームの基礎となる機械学習用特徴表現保管庫(Feature Store)の重要な役割だと私は考えています。

この領域における過去1年/2022年の主な新展開は、オープンソースの特徴表現保管庫、商用特徴表現保管庫、DIY/自作特徴表現保管庫にまたがる、多くのタイプのリアルタイムAI/ML用途をカバーするエンタープライズ対応の特徴表現保管庫の導入により、特徴表現保管庫がより成熟したことです。

代表的な例としては、以下のようなものがあります。

Linkedinは、様々なプロダクトに採用済のFeathrをオープンソース化し、特徴表現保管庫の中で特徴表現エンジニアリングや計算を実行できるようにしました。

商用特徴表現保管庫のTectonは、最近1億ドルを調達してMLOpsのユニコーン企業となり、オンラインストアにRedis Enterpriseのサポートを追加し、低遅延または高スループットの使用用途に対応し、ストリーミングやリアルタイム機能をサポートするようになりました。

そして最後に、iFoodやGojekのような企業は、数年前に独自の特徴表現保管庫を構築しましたが、現在、オンライン特徴表現保管庫をオープンソースのインメモリデータベースRedisからエンタープライズ対応バージョンにアップグレードし、低遅延と高スケールの用途をサポートするようにしました。

(5)Jeremiah Lowin

Jeremiah Lowinは、Prefect社のCEO兼創設者です。データサイエンス技術ツールキットの中で、見落とされがちな定番アイテムについての洞察を語ります。

学ぶべき最も重要な言語はPythonではなく、SQLです。あらゆる規模のデータベースが大混乱に陥っています。多くのワークロードがクラウド(特に強力なクラウドデータウェアハウス)に移行しており、機能と価格の兼ね合いで、どの企業も踏みとどまる事が難しくなっているため、ついに転換期を迎えているのです。

また、ローカルにデータがある場合は、DuckDBのような新しいインメモリデータベースによって、ラップトップやサーバーレス機能、さらにはブラウザ自体から高度なSQLベースのクエリーエンジンを使用することが可能になります。これらのどこでも利用可能なSQLベースのツールは、データ操作に対する昨今の重厚なスクリプトアプローチを駆逐しつつあります。なぜなら、ユーザーはデータを取り出して操作し、再びデータベースに挿入せずとも、データがある場所で作業できるようになるからです。

(6)Charles Martin

Charles Martinは、Calculation Consultingの創設者であり、NLPと検索におけるAIの専門家、特別なエンジニア、そしてweightwatcher.aiの発明者です。Charlesは、AIを目指す多くの企業に間違いなく影響を与える、いくつかの進展について触れています。

MLとAIは、今やあらゆるところに存在しています。私はこの1年、顧客向けのMLやAI製品の開発について多くの問い合わせを受けましたが、よく聞く話は、「本番で多くのモデルが動いているが、なぜ動くのか、いつ壊れるのか、どう修正すればいいのかがよく分からない」というものです。

多くの企業にとって、ML/AIの導入は信じられないほど複雑なシステムに進化しており、勝者は最も優れた正確なモデルを構築した者ではなく、この複雑さを管理できる者となるでしょう。

特に、MLモデルの構築と展開がはるかに容易になった一方で、基盤となるデータの管理ははるかに困難になっています。データの品質、アクセス、ガバナンスは、MLやAIを活用しようとする企業にとって、依然として深い課題となっています。

私の経験では、データガバナンスが直面する重要な課題は、私が「不釣り合いなデータ品質(Data Quality Mismatch)」と呼ぶものです。データサイエンティストから「自分たちのデータは品質が低い」という苦情が後を絶たないという通説がありますが、それは現在構築・維持しようとしているMLやAI製品にとって十分に高い品質ではないだけなのです。

多くの企業は、より複雑な製品のために、より古い、既存の、よりシンプルな製品から収集したデータを使って、MLやAIソリューションを構築しようとしています。その結果、この古いデータの品質は、このデータが元々設計された製品に十分であるに過ぎません。例えば、低品質のレポーティング製品からデータを移し、高性能のML製品に再利用する場合、データ品質に関する膨大な問題が発生することが予想されます。しかも、元のレポートシステムには何の影響も与えなかった問題です。

企業で機械学習をうまく導入するには、データを高品質で正確、かつ保護できるように慎重に計画し、管理する必要があります。企業にとって重要なのは、データを慎重に管理し、経験豊富な機械学習の専門家と協力して、モデルの問題を特定し、対処することです。

私は自分のコンサルティング業務の中で、本番のMLやAIモデルに非常に多くの問題があるのを目の当たりにしてきました。そのため、オープンソースのweightwatcherツールのような、企業がAIモデルにおける予期しない、ほとんど検出できない問題を検出するのに役立つツールを研究・開発してきました。

こららはテストデータやトレーニングデータにアクセスする必要すらありません。weightwatcher.aiでチェックしてみてください。

(7)Nima Negahban

Nima NegahbanはKineticaの共同設立者兼CEOです。Nimaから以下のコメントを貰っています。

かつては、データへのアクセスが容易な事から公共部門のアプリケーションが中心でしたが、2022年には商業部門で数多くの空間分析アプリケーション(spatial analytics applications)が実用化されました。

地理空間データを生成するセンサーやデバイスのコストは、その普及に伴い急速に低下しています。携帯電話接続用の位置情報対応チップのコストは、過去6年間で70%低下しています。衛星打ち上げコストはキログラムあたりで過去10年間に急激に低下しており、データ収集用衛星の打ち上げ回数が増えることを意味します。

また、5Gネットワークの拡大により、より大量の地理空間データの収集が可能になりました。その結果、2022年には、位置情報を共有できるコネクテッドデバイスが15ゼタバイト(zettabytes)を超えるデータを生成し、位置情報を強化したセンサーデータは世界で最も急速に成長しているデータになっています。

時空間データベース(Spatio-temporal databases)は、この10年の間に成熟し、クラウド上でその存在感を増し、データサイエンティストに地理空間次元でデータセットを融合し(つまり、緯度経度をポリゴンに結合)、動いている物体を追跡して分析する規模拡大可能なツールを提供するようになりました。

特に空間解析は非常に計算量が多く、これまでは処理できるデータ量が制限されたり、風変りで高価なGPUアーキテクチャが必要で、ほとんどの企業には手が届きませんでした。最近のクエリのベクトル化(別名、データレベル並列化)の進歩により、大規模な時空間分析に不可欠なウィンドウ関数(windowing functions)、派生カラム(derived columns)、述語結合(predicate joins)の効率が大幅に改善されました。

昨年は、さまざまな業界のイノベーターが、リアルタイムの空間データから生まれるユニークな機会を活用するようになりました。

Ford社のF150ピックアップトラックのリアルタイムストリームデータは、現在、空間的な次元で融合されています。道路状況、充電ステーション、気象情報、交通データなど、新たな車載の案内サービスが誕生しています。

Liberty Mutual社では、気象事象のリアルタイムストリームと建物の敷地を空間的な次元で融合し、壊滅的な気象事象の際の賠償責任の推定に使用し、より正確でタイムリーな保険金請求管理を実現しています。

2022年にエネルギーセクターがが供給不足に対応するために迅速に行動する中、SMエナジーのような企業は、これまで困難だった規模でドリルセンサーからのデータと地質学的データを融合させ、より低コストで迅速な井戸掘削を実現しています。

T-Mobileは、携帯電話の信号を建物や道路と空間的に融合させ、5Gのカバレッジの弱点を検出して対処しました。その結果、5Gネットワークのダウンロード速度測定結果が最速(OpenSignalによる)となり、顧客により良い携帯サービスを提供する事ができました。