1.arXiv.orgの投稿論文数で振り返る2020年のAI関連トレンドまとめ
・arXiv.orgのAPIは同一パラメーターで取得数がブレる事があるので要注意
・AL/MLはもうコンピューターサイエンスや統計学の領域には留まっていない
・特に論文数の伸びが目覚ましいのはEngineering and Systems Science関連
2.arXiv.orgの2019年と2020年の論文投稿数の比較
人気の高い論文投稿サイトであるarXiv.orgに投稿されている最新論文の傾向を元に最新の人工知能研究のトレンドを分析する試みは過去にも何度かやってみているのですが、今回も引き続きあまり思ったような感じに出来ていません。
まず、重要なポイントの1つとしてarXiv.orgに登録されている論文はクローラーで取らなくても何種類か用意されているAPIでタイトルや概要を取れるのですが、少なくともarXiv APIは、同じパラメーターを渡しているのに、戻ってくる件数が違う事が多々あり、本当の件数が何件なのか良くわからない状態です。
読者の皆さんがもし、同じような分析をしたいと思われた際は、kaggleにまとまったものがアップロードされているようなので、それを使う方が確実かもしれません。今回は作業時点ではkaggle掲載データは最終更新日が2020年11月22日だったので使う事が出来ず、一部データが欠落している可能性を覚悟の上でOAI-PMHでデータを取得してます。以下、多少の数の違いがあるかもしない事をあらかじめご承知おきください。
前回までのアプローチでは、人気が高いと言われている以下の6カテゴリに登録されている論文を対象としていました。
1.cs(Computer Science)
cs.LG – Machine Learning
cs.AI – Artificial Intelligence
cs.CL – Computation and Language
cs.CV – Computer Vision and Pattern Recognition
cs.NE – Neural and Evolutionary Computing
2.stat(Statistics)
stat.ML – Machine Learning
しかし、arXiv.orgは、メインカテゴリを1つ、サブカテゴリを複数選択する事が出来るので、メインカテゴリだけを見ると漏れがでそうですし、サブカテゴリを含めると重複が発生するしと、スムーズに行かないので、今回は6カテゴリ方式は止めました。
具体的には、
(1)サブカテゴリもしくはメインカテゴリに以下の4つのうちどれかを含む論文を抽出する。
・「cs.AI – Artificial Intelligence」
・「cs.LG – Machine Learning」
・「stat.ML – Machine Learning」
・「cs.NE – Neural and Evolutionary Computing」
(2)抽出した論文のメインカテゴリを対象に、2019年1月から2020年12月までの2年分の範囲で分析を行う。
その結果、論文数が2年間で500以上あった人気カテゴリのランキングです。
No | メインカテゴリ略称 | 論文数 | 大カテゴリ | 中カテゴリ |
1 | cs.LG | 19,868 | cs(Computer Science) | LG – Machine Learning |
2 | cs.CV | 5,549 | cs(Computer Science) | CV – Computer Vision and Pattern Recognition |
3 | cs.CL | 3,867 | cs(Computer Science) | CL – Computation and Language |
4 | stat.ML | 3,507 | stat(Statistics) | ML – Machine Learning |
5 | cs.AI | 3,128 | cs(Computer Science) | AI – Artificial Intelligence |
6 | eess.IV | 1,436 | eess(Engineering and Systems Science) | IV – Image and Video Processing |
7 | cs.NE | 1,344 | cs(Computer Science) | NE – Neural and Evolutionary Computation |
8 | cs.RO | 1,173 | cs(Computer Science) | RO – Robotics |
9 | eess.SP | 1,049 | eess(Engineering and Systems Science) | SP – Signal Processing |
10 | cs.CR | 868 | cs(Computer Science) | CR – Cryptography and Security |
11 | cs.IR | 843 | cs(Computer Science) | IR – Information Retrieval |
12 | math.OC | 834 | math(Mathematics) | OC – Optimization and Control |
13 | eess.AS | 784 | eess(Engineering and Systems Science) | AS – Audio and Speech Processing |
14 | cs.CY | 593 | cs(Computer Science) | CY – Computers and Society |
15 | cs.SI | 564 | cs(Computer Science) | SI – Social and Information Networks |
6位と9位、13位に入ってきているeess(Engineering and Systems Science)は2017年から新設されたカテゴリだそうなのですが、スマートフォンやエッジ、オンデバイス関連でしょうか。
8位ロボティクス、10位セキュリティと暗号、11位情報検索、12位数学的観点からの最適化と制御問題、14位と15位がソーシャル関連、と言われてみれば納得な裾野の広がり具合でした。
その他にも物理関係、量子関係、航空宇宙関係などなど、AL/MLはもうコンピューターサイエンスや統計学の領域には留まっておらず、今後、AL/MLが使われる場面は更に多様化していきそうです。
cs.AI、cs.LG、cs.NE、stat.MLのいずれかがサブカテゴリかメインカテゴリとして登録されているarxiv.orgの登録論文数推移
登録論文総数もコロナがあったにも関わらず2019年に比べて8000以上増えています。
やりたかった事は、下記のようなおおまかに技術のトレンドを捉える事が出来たらな、と考えているのですが、まだスマートな方法を思いつかないです。
arxiv.orgのTransfomerを使っている論文が対象としているデータの内訳の変遷(超概算)
3.arXiv.orgの投稿論文数で振り返る2020年のAI関連トレンド関連リンク
1)arxiv.org
arXiv Bulk Data Access
2)www.kaggle.com
arXiv Dataset