arxiv.orgの人工知能の論文を分類したい(4)

入門/解説

1.arxiv.orgの人工知能の論文を分類したい(4)

・arxiv.orgの論文をサイズ別に分布を調べた
・一番多いのは500Kb(10ページ前後)でかなりのばらつきがある
・サイズが違いすぎるのでPDFの内容をそのまま利用して分類するのは難しそう

2.arxiv.orgからクロールした2017年12月登録論文のサイズ別ヒストグラム

 

matplotlibで単純にヒストグラムを作成すると下記。横軸がファイルサイズで縦軸が論文の数。56Mbの論文が存在するため横軸が長くなっているが、10Mb以上の論文はほとんど存在しない。

範囲をファイルサイズ10Mb以内に絞ったグラフは下記。3Mb以内の論文が多数。

更に範囲をファイルサイズ3Mb以内に絞ると下記。500Kb前後の論文が一番多く、画像の多さやPDFの作り方によってページサイズが全然異なっているけどおおよそ10ページ前後のものが主流。

論文一覧ページからは見れないが、個々の論文には概要があるのでそれを改めてクローリングして利用できないか考えてみる事にする。

コメント

タイトルとURLをコピーしました