arxiv.orgの人工知能の論文を分類したい(7)

調査研究

1.arxiv.orgの人工知能の論文を分類したい(7)

・2017年にarxiv.orgの代表的な人工知能6カテゴリに登録された論文の概要から単語傾向を調べた
・state-of-the-artはやはり人気が高く79位にランクインしている
・年間登録論文数は約13700論文だが12月のCVのみと単語出現傾向が似ていて一括分類は無理そう

2.arxiv.orgの代表的な人工知能6カテゴリの単語出現傾向

2017年にarxiv.orgに登録された代表的な6カテゴリの概要をクローラーで取得し単語数を数えた表が下記

 

 

ああ順番

単語出現回数
1the109,397
2of76,443
3and60,080
4a55,859
5to52,235
6in35,461
7for30,482
8is27,326
9that23,573
10on21,859
11with18,629
12we18,485
13We16,074
14this13,751
15are13,694
16as13,262
17by12,773
18from11,724
19an11,678
20The11,369
21In9,969
22can9,611
23which9,476
24learning9,077
25be8,666
26our8,463
27data7,641
28model7,556
29using6,980
30method6,102
31show5,928
32proposed5,778
33neural5,497
34based5,493
35propose5,363
36network5,244
37results5,093
38approach5,061
39This4,983
40or4,961
41such4,829
42it4,800
43deep4,756
44image4,747
45have4,735
46has4,471
47performance4,376
48models4,249
49methods4,151
50algorithm4,072
51new4,054
52different4,015
53two4,013
54training3,986
55also3,939
56Our3,888
57problem3,856
58used3,827
59these3,822
60not3,711
61between3,584
62at3,533
63more3,518
64networks3,464
65both3,427
66paper,3,408
67use3,237
68A3,210
69their3,137
70been3,128
71paper3,105
72novel3,014
73information3,012
74Learning2,967
75over2,956
76its2,955
77features2,926
78each2,925
79state-of-the-art2,906
80present2,893
81than2,851
82demonstrate2,850
83into2,835
84images2,764
85number2,735
86classification2,730
87where2,603
88framework2,560
89large2,540
90algorithms2,530
91feature2,468
92when2,462
93Neural2,440
94only2,438
95To2,407
96other2,383
97However,2,343
98Deep2,327
99one2,325
100system2,305
101set2,294
102but2,235
103machine2,234
104time2,196
105first2,129
106analysis2,106
107well2,088
108detection2,077
109existing2,075
110accuracy2,062
111convolutional2,046
112how2,039
113many2,037
114Networks1,983
115human1,974
116while1,962
117all1,953
118task1,934
119work1,915
120provide1,913
1213D1,885
122multiple1,847
123learn1,843
124dataset1,843
125experiments1,835
126several1,818
127most1,817
128data.1,816
129object1,796
130trained1,794
131better1,764
132high1,725
133recognition1,716
134visual1,708
135function1,691
136datasets1,688
137approaches1,676
138study1,640
139then1,624
140optimization1,622
141input1,601
142some1,552
143language1,547
144introduce1,531
145they1,528
146through1,523
147representation1,519
148without1,502
149semantic1,480
150via1,478
151compared1,469
152order1,465
153given1,464
154real1,461
155efficient1,430
156segmentation1,418
157under1,417
158important1,412
159tasks1,406
160structure1,392
161prediction1,391
162For1,389
163various1,370
164improve1,357
165any1,355
166problems1,348
167single1,343
168knowledge1,343
169linear1,340
170very1,339
171recent1,338
172computational1,332
173achieve1,315
174systems1,302
175three1,289
176It1,282
177may1,277
178outperforms1,263
179Network1,257
180process1,256
181often1,256
182local1,249
183challenging1,248
184techniques1,243
185video1,237
186simple1,236
187standard1,221
188including1,217
189significantly1,213
190same1,213
191best1,206
192was1,200
193complex1,194
194optimal1,188
195natural1,187
196architecture1,180
197due1,170
198further1,169
199about1,163
200available1,157

 

state-of-the-artが79位に入っており、前回のComputer Vision and Pattern Recognitionの12月登録分のみに偏りがあったわけではない事が裏付けられた。しかし、一般的な英単語以外の上位に出てきた単語もimage,images, 3D, video, convolutionalなど、Computer Vision and Pattern Recognitionの12月登録分の上位陣に似ている。六分野を一気に分類できたら楽だが、やはりここは丁寧に6分野毎の単語出現傾向を調べて、クラスタリングを行う方がよさそう。

コメント

タイトルとURLをコピーしました