arxiv.orgの人工知能の論文を分類したい(1)

arxiv.orgの人工知能の論文を分類したい(1)

1.arxiv.orgの人工知能の論文を分類したい(1)まとめ

・人工知能の論文が発表される数は日に日に増えている
・最も勢いのあるarxiv.orgでは一日当たり数十を超える人工知能の論文が投稿される
・現状、6つのカテゴリに分類されているがもう少し細かく分類出来ないか試みる

2.arxiv.orgの人工知能関連の論文のカテゴリ

arxiv.orgに投稿される論文で人工知能関連と言われるカテゴリは下記6種類。しかし、1論文1カテゴリではなく、1論文が複数カテゴリ(人工知能関連以外のカテゴリもあり得る)に属している場合もある。

・cs.AI(Artificial Intelligence)

・cs.LG(Learning)

・cs.CL(Computation and Language)

・cs.CV(Computer Vision and Pattern Recognition)

・cs.NE(Neural and Evolutionary Computing)

・stat.ML(Machine Learning)

試しに、cs.AIに2017年12月に投稿された論文をクローラーでとってきてみたら、190を超えていた。31日で割ってみれば一日平均6論文以上。PDFファイルで3ページ(69Kbyte)の論文から44ページ(18Mbyte)の論文まで、質、量ともに玉石混交。様々な人が興味深い論文をまとめたりツイッターに要旨を投稿したりしてくださっているが、人力では限界があるので良い方法がないか考えてみる。

3.人工知能論文の分類 KMeansでのクラスタリング編

クローリングしてきた論文に対して、出現する単語の数を数えて分類する事を考える。まずは、定番手法であるKMeansでのクラスタリングを試みた。クラスタリングで良く問題になるのは「いくつに分割するのが妥当なのか?」の問題。うん、190の論文をいくつのカテゴリにわけるべきなのだろうか?

エルボー法(elbow法)と言う方法で妥当性の視認ができるらしいので、まずはそれを試みる。下記はうまくカテゴリ分けできたケースで、エルボー、つまり肘のようにガクンと落ちたところがもっとも妥当な数になる。つまり下記事例だと3カテゴリにわけると最も妥当性が高いと言う事。

さて、上記をcs.AIに2017年12月に投稿された論文について実施してみると下記のようになった。敢えて言うなら、50の部分が他より急激に落ちていると言えない事もないけど、肘の形と強弁するのは厳しいものがある。

と言う事で単語の数を数える事によるクラスタリングは難しいとの結論になった。もっと端的に言えば失敗。

4.参考リンク

1)arXiv.org
https://arxiv.org/

2)@deaikei
k-meansの最適なクラスター数を調べる方法