ビッグデータとは何か?

1.ビッグデータとは何か?

直訳の通り「沢山のデータ」、もう少し丁寧に書くと「コンピューターで扱うのが難しいほど量が多い、もしくは扱いにくい形になっているデータ」の事。

例えば、2009年のある論文ではGoogleで検索できるインターネットのWebページは、インターネット全体の半分程度であると言う。

深層ウェブの実態とその要因 : 機関リポジトリに登録された文献を用いた調査

身近な例でもビデオテープやハードディスクレコーダーが直ぐにいっぱいになった事はあるだろう。単純に量がとてもとても多いと言うのは中々手ごわい事なのだ。

また、扱いにくいデータの典型は人間が入力に関わったデータだ。例えば文章は表記がブレるのでコンピュータにはとても扱いにくい。

賃貸不動産を探した人なら、同じマンション/アパートがあたかも違う物件であるかのように複数出てきてイライラした事があると思う。片仮名、平仮名、漢字、英語の混合、略称で書く、目立つように記号を入れる、
等々の様々な形で表現がブレる。更に加えて「山の手マンション」と「山の手マンション サザンテラス」が本当に同一マンションであるケースと、実は違うマンションであるケースなどもあり、コンピューターに名寄せ、つまり名前が違う同一の部屋を一つにまとめる作業は中々に困難だ。

昔、日本全国に点在する300以上の事務所から週報を受け取って集計する仕事をやった事がある。事務所にとっては「指定セルに数字を入力して返信する」だけの話であり、集計側にとっても「集まったEXCELの該当セルを合計して全国集計を出す」だけの話だ。

それだけの話なのに一発で全国集計が出せた事は、一度もなかった。
毎週、毎週、

・シートに丁寧に説明を入る
・数式を工夫して一部を自動入力可
・保護やパスワードでセルを勝手に変更できないようにする
・間違った事務所には電話して次週以降に注意して欲しい事を伝える

等々の工夫を凝らしても、
毎週、毎週、思いもよらない方法でオリジナリティを発揮して指定外の入力を
してくる事務所が表れて、腹が立つと言うより感心してしまったくらいだ。
それくらい人間の入力したデータはミスや例外が沢山あって扱いにくい。しかし、
・インターネットにより様々な形式のビッグデータを自動収集するのが容易になった。
・技術革新によりビッグデータを保存しておくための費用が減った。
・統計解析や人工知能により扱いにくいデータから有用な情報を取り出す手法が増えた。
・センサーが安価になって、身の回りの物からデータが収集できるようになった(IoT)
などの状況の変化により、ビッグデータの時代が来た。

従来は単なるゴミデータとして捨てられていたデータが実は宝の山なのではないかと見直され、
ビッグデータを扱う事を専門にするデータサイエンティスト等の新しい職も生まれている。