arXiv.orgの投稿論文数で振り返る2020年のAI関連トレンド

AI

1.arXiv.orgの投稿論文数で振り返る2020年のAI関連トレンドまとめ

・arXiv.orgのAPIは同一パラメーターで取得数がブレる事があるので要注意
・AL/MLはもうコンピューターサイエンスや統計学の領域には留まっていない
・特に論文数の伸びが目覚ましいのはEngineering and Systems Science関連

2.arXiv.orgの2019年と2020年の論文投稿数の比較

アイキャッチ画像のクレジットはPhoto by ThisisEngineering RAEng on Unsplash

人気の高い論文投稿サイトであるarXiv.orgに投稿されている最新論文の傾向を元に最新の人工知能研究のトレンドを分析する試みは過去にも何度かやってみているのですが、今回も引き続きあまり思ったような感じに出来ていません。

まず、重要なポイントの1つとしてarXiv.orgに登録されている論文はクローラーで取らなくても何種類か用意されているAPIでタイトルや概要を取れるのですが、少なくともarXiv APIは、同じパラメーターを渡しているのに、戻ってくる件数が違う事が多々あり、本当の件数が何件なのか良くわからない状態です。

読者の皆さんがもし、同じような分析をしたいと思われた際は、kaggleにまとまったものがアップロードされているようなので、それを使う方が確実かもしれません。今回は作業時点ではkaggle掲載データは最終更新日が2020年11月22日だったので使う事が出来ず、一部データが欠落している可能性を覚悟の上でOAI-PMHでデータを取得してます。以下、多少の数の違いがあるかもしない事をあらかじめご承知おきください。

前回までのアプローチでは、人気が高いと言われている以下の6カテゴリに登録されている論文を対象としていました。

1.cs(Computer Science)
cs.LG – Machine Learning
cs.AI – Artificial Intelligence
cs.CL – Computation and Language
cs.CV – Computer Vision and Pattern Recognition
cs.NE – Neural and Evolutionary Computing

2.stat(Statistics)
stat.ML – Machine Learning

しかし、arXiv.orgは、メインカテゴリを1つ、サブカテゴリを複数選択する事が出来るので、メインカテゴリだけを見ると漏れがでそうですし、サブカテゴリを含めると重複が発生するしと、スムーズに行かないので、今回は6カテゴリ方式は止めました。

具体的には、

(1)サブカテゴリもしくはメインカテゴリに以下の4つのうちどれかを含む論文を抽出する。
・「cs.AI – Artificial Intelligence」
・「cs.LG – Machine Learning」
・「stat.ML – Machine Learning」
・「cs.NE – Neural and Evolutionary Computing」

(2)抽出した論文のメインカテゴリを対象に、2019年1月から2020年12月までの2年分の範囲で分析を行う。

その結果、論文数が2年間で500以上あった人気カテゴリのランキングです。

Noメインカテゴリ略称論文数大カテゴリ中カテゴリ
1cs.LG19,868cs(Computer Science)LG – Machine Learning
2cs.CV5,549cs(Computer Science)CV – Computer Vision and Pattern Recognition
3cs.CL3,867cs(Computer Science)CL – Computation and Language
4stat.ML3,507stat(Statistics)ML – Machine Learning
5cs.AI3,128cs(Computer Science)AI – Artificial Intelligence
6eess.IV1,436eess(Engineering and Systems Science)IV – Image and Video Processing
7cs.NE1,344cs(Computer Science)NE – Neural and Evolutionary Computation
8cs.RO1,173cs(Computer Science)RO – Robotics
9eess.SP1,049eess(Engineering and Systems Science)SP – Signal Processing
10cs.CR868cs(Computer Science)CR – Cryptography and Security
11cs.IR843cs(Computer Science)IR – Information Retrieval
12math.OC834math(Mathematics)OC – Optimization and Control
13eess.AS784eess(Engineering and Systems Science)AS – Audio and Speech Processing
14cs.CY593cs(Computer Science)CY – Computers and Society
15cs.SI564cs(Computer Science)SI – Social and Information Networks

6位と9位、13位に入ってきているeess(Engineering and Systems Science)は2017年から新設されたカテゴリだそうなのですが、スマートフォンやエッジ、オンデバイス関連でしょうか。

8位ロボティクス、10位セキュリティと暗号、11位情報検索、12位数学的観点からの最適化と制御問題、14位と15位がソーシャル関連、と言われてみれば納得な裾野の広がり具合でした。

その他にも物理関係、量子関係、航空宇宙関係などなど、AL/MLはもうコンピューターサイエンスや統計学の領域には留まっておらず、今後、AL/MLが使われる場面は更に多様化していきそうです。


cs.AI、cs.LG、cs.NE、stat.MLのいずれかがサブカテゴリかメインカテゴリとして登録されているarxiv.orgの登録論文数推移

登録論文総数もコロナがあったにも関わらず2019年に比べて8000以上増えています。

やりたかった事は、下記のようなおおまかに技術のトレンドを捉える事が出来たらな、と考えているのですが、まだスマートな方法を思いつかないです。


arxiv.orgのTransfomerを使っている論文が対象としているデータの内訳の変遷(超概算)

 

3.arXiv.orgの投稿論文数で振り返る2020年のAI関連トレンド関連リンク

1)arxiv.org
arXiv Bulk Data Access

2)www.kaggle.com
arXiv Dataset

コメント

タイトルとURLをコピーしました