人工知能とデータサイエンスの2019年の主な進展と2020年の予測research編(3/3)

１．人工知能とデータサイエンスの2019年の主な進展と2020年の予測research編(3/3)まとめ

・ビジネスにAIを採用させる事を成功するためにはビジネス固有のカスタムソリューションが必要
・より複雑なデータサイエンスの問題には、特定分野の専門家による介入とガイドが不可欠となる
・良い目的で使用されるAIと悪い目的で使用されるAI間の綱引きは引き続いていく

２．DIY AI時代

以下、www.kdnuggets.comより「AI, Analytics, Machine Learning, Data Science, Deep Learning Research Main Developments in 2019 and Key Trends for 2020」の意訳です。元記事の投稿は2019年12月、Matthew Mayoさんによる投稿です。research編ではありますが、学界よりの経歴を持つ人と産業界よりの経歴を持つ人では特にクラウドに関する見解が異なりますね。個人的には「転移学習が何なのか実は良くわかっていなかった」と言う事が2019年の一番のビッグニュースと感じているのですが、年末に飛び込んできた話なので、おそらくこのインタビューが実施された時にはまだ話題になってなかったのだと思います。アイキャッチ画像のクレジットはPhoto by Science in HD on Unsplash

(8)Charles Martin AIの科学者およびコンサルタント、およびCalculation Consultingの創設者

BERT、ELMO、GPT2、その他の諸々！
2019年のAIは、NLP(自然言語処理)で大きな進歩を遂げました。OpenAIは、巨大なGPT-2モデルをリリースしました。これは文章におけるDeepFakes(訳注:偽動画作成ツール)のようなものです。GoogleはBERTを検索エンジンに使用した事を発表しました。これはパンダアップデート(訳注：Googleが悪質サイト排除のために検索アルゴリズムに行った大きな変更)以来の最大の変化です。

UC Berkeleyの私の共同研究者さえ、少ない計算機資源しか利用できない小さいハードウェア上で動作する(量子化された)QBERTをリリースしました。誰もが今、独自の文書用のembeddingsを作成しています。

これは2020にとって何を意味するのでしょうか？
検索の専門家達によれば、2020年は「関連性の年(year of Relevance)」になると言います。(ええっと、彼らは今まで関連性は見てなかったんでしょうかね？)

BERTのようなスタイルで微調整されたembeddingsにより、ベクトル空間検索(vector space search)が最終的に注目を集めるようになる事を期待しています。

念入りに調べれば、2019年、PyTorchはAI研究分野での選択肢としてTensorflowを追い抜きました。TensorFlow 2.xのリリース(およびpytorchのTPUサポート)がありました。そして、2020年のAIコーディングは、eager-executionが全てです。

大企業のAI利用には進展があるでしょうか？ある報告書によれば、成功率は10分の1である事を示しています。あまり良くないですね。AutoMLは2020年に需要がありますが、個人的には、検索結果を優れたものにするのと同様に、AIを成功させるにはビジネス固有のカスタムソリューションが必要だと思います。

(9)Ines Montani(@_inesmontani) 人工知能と自然言語処理技術に取り組んでいるソフトウェア開発者、Explosionの共同設立者

誰もがクラウドソリューションではなく「DIY AI」を選択しています。
(訳注：DIYは日本だと日曜大工的なイメージですが、Do It Yourselfの頭文字で、要はクラウド上に用意されたAI関連ソリューションの利用ではなく自分自身でAIモデルを組み立てる事に夢中になっていると言う事の指摘と思います。確かにその一面はありますね。)

この傾向を促進する要因の1つは、転移学習の成功です。これにより、誰でも独自のモデルを非常に具体的なユースケースに合わせて適切な精度でトレーニングしやすくなりました。モデル毎に1人のユーザーがいるため、クラウドサービスプロバイダーが活用できる大規模な経済圏はありません。

転移学習のもう1つの利点は、データセットを非常に巨大にする必要がないため、ラベル付けも内製化出来る事です。内製化の傾向は前向きに捉える事が出来る展開です。

商用AIは、多くの人が思っていたほど一極に集中化されていません。数年前、人々は誰もがたった1つのAI供給会社から「AI供給会社のAI」を入手するしか選択肢がなくなる事を心配していました。予想に反して、人々はクラウドサービスプロバイダーから供給されたAIを使っていません。彼らは自分自身のAIモデルを実行しています。

(10)Dipanjan Sarkar Applied Materialsのデータサイエンスリード、著者、コンサルタント、トレーナー、Google Developer Expert(Machine Learning)

2019年の人工知能の世界における主要な進歩は、Auto-ML、Explainable AI(説明可能なAI)、Deep Learningにありました。データサイエンスの民主化は、ここ数年、様々なツールにおいて重要な側面として留まっています。Auto-MLと関連するフレームワークは、この民主化を更に容易にしようとしています。

ただし、これらのツールを使用する際には、モデルの偏りや過学習が行われないように注意する必要があるという注意事項が残っています。公正さ、説明責任、透明性は、AI、顧客、商習慣、大企業に意思決定を受け入れるための重要な要素です。

したがって、Explainable AIはもはや研究論文だけのトピックではありません。多くの優れたツールとテクニックが、機械学習モデルが意志決定した理由をより解釈しやすくし始めています。最後になりましたが、ディープラーニングと転移学習の世界では、特に自然言語処理の分野で多くの進歩が見られました。

2020年には、NLPとコンピュータービジョン向けのディープ転移学習の分野でさらに多くの研究とモデルが登場し、できれば、ディープラーニングとニューロサイエンスを最大限に活用が、真のAGI(訳注：Artificial General Intelligence、汎用人工知能、いわゆる強いAI)に繋がっていく事を期待しています。

(11)Elena Sharova ITVのシニアデータサイエンティスト

2019年の最も重要な機械学習における進展は深層強化学習です。DeepMind DQNとAlphaGoによるゲームプレイによって実演され、これは碁の世界チャンピオンであったリー・セドルの引退につながりました。

もう1つの重要な進歩は、Googleがオープンソース化したBERT(deeply bidirectional language representation)を使用した自然言語処理です。Microsoftも、発音解決タスク用にMT-DNNアンサンブルの開発とオープンソース化を行い、GLUEベンチマークを使ったベンチマーク競争をリードしています。

欧州委員会による「Ethics Guidelines for Trustworthy AI(信頼できるAIの倫理ガイドライン)」の公開を強調する事も重要です。これは、合法的、倫理的、堅牢なAIの賢明なガイドラインを定めた最初の公式見解です。

最後に、KDyuggetsの読者の皆さんに、PyData London 2019の基調講演者が全員、女性であったことを共有しておきます。歓迎すべき発展です！

2020年の機械学習開発の主な傾向は、自然言語処理とコンピュータービジョンの範囲内で継続すると予想しています。機械学習(ML)とデータサイエンス(DS)を採用している業界では、データサイエンティストの採用とつなぎ留めにおけるベストプラクティスの標準を定義する事が出来ていないに気付きました。これはDSとMLを含むプロジェクトの複雑さを管理し、そして、コミュニティがオープンで協力的であることを保証します。従って、近い将来、このような標準により重点を置く必要が出て来るでしょう。

(12)Rosaria Silipo(@DMR_Rosaria) KNIMEのプリンシパルデータサイエンティスト
2019年の最も有望な成果は、能動学習(active learning)、強化学習(reinforcement learning)、およびその他の半教師付き学習手法の広まりです。半教師付き学習は、現在データベースに配置されている全てのラベル付けされていないデータを利用可能にすると言う希望に繋がるかもしれません。

もう1つの大きな進歩は、autoMLが「自動(auto)」という言葉を「ガイド付き(guided)」という単語に修正したことです。より複雑なデータサイエンスの問題には、専門家の介入とガイドが不可欠と思われます。

2020年には、データサイエンティストは、モデルを容易に製品展開できる事、製品展開したモデルを継続的に監視できる事、モデルを柔軟に管理できる事、を実現するための迅速なソリューションを必要とします。現実世界のビジネス価値は、データサイエンスのライフサイクルとしてこれら3つが実現出来た後にもたらされます。

また、ディープラーニングをブラックボックスのままより広範囲に使用すると、Machine Learning Interpretability(MLI:機械学習の解釈可能性)の問題が発生すると考えています。2020年の終わりに、MLIアルゴリズムが、深層学習モデルの密室で何が起こっているのかを徹底的に説明するという課題に対応しているかどうかを確認する事になるでしょう。

(13)Daniel Tunkelang(@dtunkelang) 検索、発見、およびML / AIを専門とする独立コンサルタント

AIの最先端は、言語の理解と生成に引き続き焦点を当てています。

OpenAIは、テキストを予測および生成するGPT-2を発表しました。 OpenAIは、悪意のあるアプリケーションに使われる懸念から、当時は訓練済みモデルをリリースしませんでしたが、最終的には気が変わりました。

Googleは、モバイル上で実行可能な音声認識機能をリリースしました。これを実現する機械学習モデルはサイズがわずか80MBに収まるため、クラウドにデータを送信せずにモバイルデバイス上で音声認識を実行できます。

その一方で、AIとプライバシーに関する懸念が育ってきているように見られます。今年、デジタルアシスタント提供している主要な企業は全て、従業員または請負業者がユーザーの会話を聞いていると言うニュースにより反発に直面しました。

2020年、AIはどんな用意をしているでしょうか？
会話型AIのさらなる進歩と、AIが自動で生成する画像やビデオの品質が向上する事が見込まれます。これらの進歩は、悪意のあるアプリケーションに関連する大きな懸念を提起し、おそらく、特に選挙の年なので、スキャンダルや大きな問題が懸念されます。良い目的で使用されるAIと悪い目的で使用されるAI間の綱引きは引き続いていき、私達はそれに対処するためのより良い方法を習得する必要があります。

３．人工知能とデータサイエンスの2019年の主な進展と2020年の予測research編(3/3)関連リンク

１）www.kdnuggets.com
AI, Analytics, Machine Learning, Data Science, Deep Learning Research Main Developments in 2019 and Key Trends for 2020

１．人工知能とデータサイエンスの2019年の主な進展と2020年の予測research編(3/3)まとめ

２．DIY AI時代

３．人工知能とデータサイエンスの2019年の主な進展と2020年の予測research編(3/3)関連リンク

コメント