1.ビッグデータとは何か?
直訳の通り「巨大なデータ」、もう少し丁寧に書くと「コンピューターで扱うのが難しいほど量が多い、もしくは扱いにくい形になっているデータ」の事です。
身近な例でもスマホやパソコン、ハードディスクレコーダーなどの容量が直ぐにいっぱいになってしまって困った経験をお持ちと思うのですが、単純に量がとてもとても多いと言うのは中々手ごわい事なのです。
また、コンピュータが扱いにくいデータの典型は人間が入力に関わった文章です。人間が入力したデータは表記がブレるのでコンピュータにはとても扱いにくいのです。
賃貸不動産を探した人なら、同じマンション/アパートがあたかも違う物件であるかのように複数出てきてイライラした事があると思います。片仮名、平仮名、漢字、英語の混合、略称で書く、目立つように記号を入れる、等々の様々な形で表現がブレます。
更に「山の手マンション」と「山の手マンション サザンテラス」が本当に同一マンションであるケースと、実は違うマンションであるケースなどもあり、コンピューターを使って名寄せ、つまり表記が異なるけれども実体が同じ同一の部屋を一つにまとめる作業は中々に困難です。
昔、日本全国に点在する300以上の事務所から週報を受け取って集計する仕事をやった事があります。事務所にとっては「指定された箇所に指定された数字を入力して返信する」だけの話であり、集計側にとっても「集まったEXCELの該当セルを合計して全国集計を出す」だけの話です。
それだけの話なのに一発で全国集計が出せた事は、一度もありませんでした。毎週、毎週、様々な工夫、
・シートに丁寧に説明を入る
・数式を工夫して一部を自動入力可
・保護やパスワードでセルを勝手に変更できないようにする
・間違った事務所には電話して次週以降に注意して欲しい事を伝える
等々の工夫を凝らしても、毎週、毎週、思いもよらない方法でオリジナリティを発揮して想定外の入力をしてくる事務所が表れて、腹が立つと言うより感心してしまったくらいです。
こういった「量がとても多いデータ」や「(人間が入力したデータのような)既定のルールに従っていないデータ」はコンピュータで大変扱いにくいため、従来はごみデータとして捨てられていました。
しかし、
・技術革新によりビッグデータを保存しておくための費用が減った。
・統計解析や人工知能の技術により扱いにくいデータから有用な情報を取り出す手法が増えた。
・インターネットにより様々な形式のビッグデータを自動収集するのが容易になった。
・センサーが安価になって、身の回りの物からデータが収集できるようになった(IoT)
などの状況の変化により、ビッグデータから有用な知見を取り出す事が出来るようになってきており、ビッグデータを扱う事を専門にするデータサイエンティスト等の新しい職種も生まれてきており、ビッグデータの時代が来たと言われています。