arxiv.orgの人工知能の論文を分類したい(5)

その他の調査

1.arxiv.orgの人工知能の論文を分類したい(5)

・Computer Vision and Pattern Recognitionの概要に対象を絞って単語の数を数えてみる
・sklearn.feature_extraction.textやNLTKを使うと楽だがそれでも個別の精査は必要
・エルボー法で確かめてみるとそれなりに有効そうである事がわかった

2.arxiv.orgからクロールした2017年12月登録論文の出現キーワードランキング

前回の調査で論文の規模感がかなり異なる事がわかったので、PDFの中身ではなく、arxivの論文詳細ページにある概要(Abstract)を対象にしてみる事にした。概要は論文内容を説明した文章で、長さがほぼ同じ。また、PDFのように画像として貼られていて文字が抽出できない事もないので想定外の片寄を減らせるだろうとの予測。

下記が何のツールも使わない単純単語出現数上位100位ランキングの結果

 

No

word出現回数注目
1the4517
2of3018
3and2601
4a2328
5to2218
6in1325
7for1256
8is1114
9on953
10that940
11we802
12with796
13We586
14this585
15by546
16from543
17are522
18as502
19image479
20The475
21an446
22In432
23can410
24our409
25which369
26network352
27be346
28using334
29proposed331
30learning327
31method319
32images318
33propose287
34model287
35data279
36training262
37deep252
38results248
39show247
40neural243
41based227
42methods225
43performance221
44different206
45detection201
46This200
473D198
48approach197
49or196
50have193
51at190
52also188
53state-of-the-art186
54novel180
55two179
56such179
57it179
58has175
59not174
60Our170
61object164
62new162
63classification162
64used160
65both159
66convolutional157
67networks156
68video152
69between152
70features150
71paper146
72segmentation145
73problem143
74more143
75these139
76information139
77demonstrate138
78Deep132
79To131
80adversarial128
81than127
82dataset127
83visual124
84Learning124
85models122
86been121
87large120
88over119
89only119
90A119
91framework118
92existing118
93use117
94each117
95However116
96recognition115
97trained114
98feature114
99input113
100semantic112

 

まず真っ先に目を引いたのは53位、「state-of-the-art(最先端の)」。君等、この表現好きすぎだろっと笑ってしまったけど、確かに人工知能関連では色々な箇所で見る表現ではある。TensorFlowのチュートリアルなどでも、「ここで学ぶ事はstate-of-the-artではないけれども~」と書いてあって、チュートリアルでそんな高度な事を期待する人なんていないだろ!と一人突っ込みしたのも思い出す。

上位陣はいわゆる一般的な英単語、どんな文章でも出てくるだろうからこれらは特徴量とは言えない。sklearn.feature_extraction.textを利用すると一括で省けるようになるのだけど、省けない単語もあるので結局は一つ一つ見る事が必要になってくる。

19のimageと32のimagesは、同じ単語だけど、これらはNLTK(Natural Language ToolKit)を使うとステミング(stemming)と言って、語形の変化をまとめてくれるそうなのだけど、こちらも専門的な言い回しが多いせいなのか100%ではなく細かく見る必要がありそう。

しかし、例えばdeepとかneuralは、人工知能関連文書とそうでない文書をわけるためには有効と思うけど、人工知能関連の論文のクラスタリングには有効でない気もする。また、例えばframeworkは違いが出そうな気はするけど、論文をクラスタリングと言う意味ではTensorFlowだろうがChainerだろうが、実行ツールの違いで研究内容には関係はない気がする。などなど、500強の論文に対して700以上の単語を当初は細かく見ていたが、段々と混乱してきて面倒になり、エイヤと目をつぶって削除して特徴量50をMAXとしてエルボー法を適用したのが下記。

初回の何も考えずに単語カウントしてsklearnに突っ込んだのが下記。

おぉ~、明らかに20クラスタ近辺までグッと下がってエルボー(肘)っぽい形に少し近づいた。って事はこれは丁寧に単語を見る価値はありそう。

コメント

タイトルとURLをコピーしました