ビッグデータを集めるためのクローラー学習本の選び方

ビッグデータを集めるためのクローラー学習本の選び方

1.ビッグデータを集めるためのクローラーの学習本レビューまとめ

・人工知能や統計解析の学習用データを集めるにはクローラーを作る必要がある
・色々なクローラー本が出版されているが言語、レビュー、出版に注目しよう
・クローラーはクローラーだけでなく様々な技術を知っておく必要がある

2.クローラーとは何か?

インターネットの様々なページから必要な情報を自動的に取得するプログラムの事をクローラーと言う。なお、10年くらい前はスパイダーと呼ばれる時期もあったし、スクレイピングと言う呼ば方をする人もいる。厳密な言葉の定義はさておき、クローラーが注目されている理由の一つは単純に結果がすぐ出るから面白い事に加え、ビッグデータや統計解析、人工学習の学習用のデータを集めるプログラムとしても需要が高まったからである。

3.クローラー解説本一覧

自分でクローラーを作るためにAmazonで「クローラー」で検索するとこれだけの本が存在する。2017年も2016年に続いて年末に何故かクローラーの解説本出版ラッシュが来たようだ。

2014/8/23
Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例
\2,980-

2015/8/31
JS+Node.jsによるWebクローラー/ネットエージェント開発テクニック
\3,456-

2016/3/18
PythonによるWebスクレイピング
\3,240-

2016/11/29
データを集める技術 最速で作るスクレイピング&クローラー
\2,400-

2016/12/6
Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう
\3,456-

2016/12/16
Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド
\3,456-

2017/6/3
退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング
\3,996-

2017/9/14
クローリングハック あらゆるWebサイトをクロールするための実践テクニック
\2,680-

2017/10/23
Pythonによるクローラー&スクレイピング入門 設計・開発から収集データの解析・運用まで
\3,240-

注意)価格はKindle版の価格に統一してます。
アマゾンは手に入りにくくなった紙の本の価格を定価より釣り上げて売られる時があるためです。

4.クローラー解説本の選び方

これだけある本の何を基準に選べば良いだろうか?私が技術書を選ぶ時に気を付けているのは下記3つだ。

(1)解説に使われているプログラミング言語
自分が仕事や趣味で使っているプログラミング言語をベースに解説されているかが一番重要だろう。もし特に得意な言語がないのであれば、人工知能に興味があるならPython、Webアプリケーションに興味があるならRubyをベースにした本を選んでおくとよいだろう。

(2)アマゾンレビューのチェック
技術書は結構真面目にレビューを書いてくれている人が多い。どんな良書であっても筆者が想定する読者知識レベルとギャップがあると評価が低くなってしまう。プログラミング言語に読者がどの程度習熟しているかの前提を確かめる事が大切だ。その点、自分の知識レベルとそのレベルで感じた読書感想を書いてくれている人が多くありがたい。また、良いレビューを書いてくれている人のレビュー一覧から更に良書を発見する事もある。

(3)出版日
クローラーのような「特定の技術」を解説した本はなるべく、出版日が新しい本が良い。本の中で解説されているライブラリやソフト、仕様、社会環境などが古くなってしまっているケースがある。私が過去に買った本で一番極端なケースでは、半年前に出版された本の内容が半分以上役に立たなくなっていた事があった。「特定の技術」ではなく「基盤となる技術」、つまりプログラミング言語の入門書など、仕様があまり変わらない技術であったら出版日が古くてもかまわない。むしろ古典的バイブルとされるものは積極的に読んだ方が歴史的経緯がわかって良いケースもある。