1.arxiv.orgの人工知能の論文を分類したい(2)
・arxiv.orgの論文PDFは一括ダウンロードできるようにAmazonクラウド S3上に格納されている
・PDF、Sourceファイル、その他を合わせると500GBを超える
・全カテゴリが一括で固められており人工知能関連だけダウンロードは出来ない
2.arxiv.orgからの論文PDFファイル一括ダウンロード
arxiv.orgの2017年12月の人工知能関連カテゴリのPDFをクローラーでとってきたところ、例の6カテゴリ、cs.AI、cs.LG、cs.CL、cs.CV、cs.NE、stat.MLで1200ファイル以上、2.7GB超えになった。
クローラーであまり負荷をかけるのもまずいかな、と思ってarxiv.orgのサイトポリシーを改めて見直してみたら実はAmazonのクラウド上から全ファイルを一括ダウンロードできるとの記述を発見、使わせて頂こうと思ったが、ファイル名が下記のようになっているようだった。
s3://arxiv/pdf/arXiv_pdf_1001_001.tar
s3://arxiv/pdf/arXiv_pdf_1001_002.tar
s3://arxiv/pdf/arXiv_pdf_1001_003.tar
明らかに人工知能以外も含む全カテゴリを一括で固めてある。こんなレベルのが毎月3ファイルずつ追加され、トータルで500GBを超えるとの事なので、まさにビッグデータ、ちょっと大きすぎて現在メインで使っているPC環境ではやや手に余る。致し方ないので、引き続き節度を持って人工知能関連PDFのみクローリングさせて頂く事にした。
実際、「Indiscriminate automated downloads from this site are not permitted.」との事で「見境のない自動ダウンロードは禁止」と言われているだけでrobots.txtを見ても/pdfや/absは特にクローリングが禁止されているわけでない。2017年12月分だけでも一日以上かけてゆっくりとクロールしているのでそれほど負荷はかかっていないと思う。
コメント