arXiv.orgの投稿論文数で振り返る2020年のAI関連トレンド

その他の調査

1.arXiv.orgの投稿論文数で振り返る2020年のAI関連トレンドまとめ

・arXiv.orgのAPIは同一パラメーターで取得数がブレる事があるので要注意
・AL/MLはもうコンピューターサイエンスや統計学の領域には留まっていない
・特に論文数の伸びが目覚ましいのはEngineering and Systems Science関連

2.arXiv.orgの2019年と2020年の論文投稿数の比較

アイキャッチ画像のクレジットはPhoto by ThisisEngineering RAEng on Unsplash

人気の高い論文投稿サイトであるarXiv.orgに投稿されている最新論文の傾向を元に最新の人工知能研究のトレンドを分析する試みは過去にも何度かやってみているのですが、今回も引き続きあまり思ったような感じに出来ていません。

まず、重要なポイントの1つとしてarXiv.orgに登録されている論文はクローラーで取らなくても何種類か用意されているAPIでタイトルや概要を取れるのですが、少なくともarXiv APIは、同じパラメーターを渡しているのに、戻ってくる件数が違う事が多々あり、本当の件数が何件なのか良くわからない状態です。

読者の皆さんがもし、同じような分析をしたいと思われた際は、kaggleにまとまったものがアップロードされているようなので、それを使う方が確実かもしれません。今回は作業時点ではkaggle掲載データは最終更新日が2020年11月22日だったので使う事が出来ず、一部データが欠落している可能性を覚悟の上でOAI-PMHでデータを取得してます。以下、多少の数の違いがあるかもしない事をあらかじめご承知おきください。

前回までのアプローチでは、人気が高いと言われている以下の6カテゴリに登録されている論文を対象としていました。

1.cs(Computer Science)
cs.LG – Machine Learning
cs.AI – Artificial Intelligence
cs.CL – Computation and Language
cs.CV – Computer Vision and Pattern Recognition
cs.NE – Neural and Evolutionary Computing

2.stat(Statistics)
stat.ML – Machine Learning

しかし、arXiv.orgは、メインカテゴリを1つ、サブカテゴリを複数選択する事が出来るので、メインカテゴリだけを見ると漏れがでそうですし、サブカテゴリを含めると重複が発生するしと、スムーズに行かないので、今回は6カテゴリ方式は止めました。

具体的には、

(1)サブカテゴリもしくはメインカテゴリに以下の4つのうちどれかを含む論文を抽出する。
・「cs.AI – Artificial Intelligence」
・「cs.LG – Machine Learning」
・「stat.ML – Machine Learning」
・「cs.NE – Neural and Evolutionary Computing」

(2)抽出した論文のメインカテゴリを対象に、2019年1月から2020年12月までの2年分の範囲で分析を行う。

その結果、論文数が2年間で500以上あった人気カテゴリのランキングです。

No メインカテゴリ略称 論文数 大カテゴリ 中カテゴリ
1 cs.LG 19,868 cs(Computer Science) LG – Machine Learning
2 cs.CV 5,549 cs(Computer Science) CV – Computer Vision and Pattern Recognition
3 cs.CL 3,867 cs(Computer Science) CL – Computation and Language
4 stat.ML 3,507 stat(Statistics) ML – Machine Learning
5 cs.AI 3,128 cs(Computer Science) AI – Artificial Intelligence
6 eess.IV 1,436 eess(Engineering and Systems Science) IV – Image and Video Processing
7 cs.NE 1,344 cs(Computer Science) NE – Neural and Evolutionary Computation
8 cs.RO 1,173 cs(Computer Science) RO – Robotics
9 eess.SP 1,049 eess(Engineering and Systems Science) SP – Signal Processing
10 cs.CR 868 cs(Computer Science) CR – Cryptography and Security
11 cs.IR 843 cs(Computer Science) IR – Information Retrieval
12 math.OC 834 math(Mathematics) OC – Optimization and Control
13 eess.AS 784 eess(Engineering and Systems Science) AS – Audio and Speech Processing
14 cs.CY 593 cs(Computer Science) CY – Computers and Society
15 cs.SI 564 cs(Computer Science) SI – Social and Information Networks

6位と9位、13位に入ってきているeess(Engineering and Systems Science)は2017年から新設されたカテゴリだそうなのですが、スマートフォンやエッジ、オンデバイス関連でしょうか。

8位ロボティクス、10位セキュリティと暗号、11位情報検索、12位数学的観点からの最適化と制御問題、14位と15位がソーシャル関連、と言われてみれば納得な裾野の広がり具合でした。

その他にも物理関係、量子関係、航空宇宙関係などなど、AL/MLはもうコンピューターサイエンスや統計学の領域には留まっておらず、今後、AL/MLが使われる場面は更に多様化していきそうです。


cs.AI、cs.LG、cs.NE、stat.MLのいずれかがサブカテゴリかメインカテゴリとして登録されているarxiv.orgの登録論文数推移

登録論文総数もコロナがあったにも関わらず2019年に比べて8000以上増えています。

やりたかった事は、下記のようなおおまかに技術のトレンドを捉える事が出来たらな、と考えているのですが、まだスマートな方法を思いつかないです。


arxiv.orgのTransfomerを使っている論文が対象としているデータの内訳の変遷(超概算)

 

3.arXiv.orgの投稿論文数で振り返る2020年のAI関連トレンド関連リンク

1)arxiv.org
arXiv Bulk Data Access

2)www.kaggle.com
arXiv Dataset

タイトルとURLをコピーしました