Common sense is the collection of prejudices acquired by age eighteen. It is harder to crack a prejudice than an atom.

ビックデータの正体

「過去何百年も続いてきた科学的な慣行が覆され、判断の拠り所や現実の捉え方について、これまでの常識に疑問を突きつけるのだ」と著者はビックデータがもたらす未来について語っている。それは次のようなものだ。

1.少量ではなく、すべてのデータを扱う

これまで膨大なデータを正確に分析するのは簡単な作業ではなかった。収集するデータ量をあえて抑えてきたのは、データの記録・保管や分析のツールが貧弱だったからだ。極端に言えば、統計の目的は最小限のデータで最大の知見を得ることである。すべてのデータを扱う事例で、シカゴ大学のスティーブン・レビット教授は、日本の国技である相撲の過去の”すべての”取り組みを分析し、千秋楽で7勝7敗の力士が、すでに勝ち越しを決めている力士に勝つ確率が、およそ25%高くなることを発見している。つまり八百長は日常的である。(*1)。

(*1)相撲は1つの場所(春場所、夏場所など)で15戦を戦い、7勝8敗といったように負け越せば順位が下がり、それが続くと収入が”大幅に”落ちるという事情がある。

2.量は質を凌駕する

スモールデータの世界では、誤りを減らして質の高いデータを確保することが当然の努めだった。ひとつひとつの測定値が分析結果を大きく左右したためである。しかし今、我々が暮らしている世界は、そんな情報飢餓社会ではない。すべてのデータ集合が手に入るならば、個々の測定値の善し悪しにいちいち悩む必要はない。MITのアルベルト・カバロ教授は、ウェブ上の商品価格を自動収集し、物価指数を計算している。結果、2008年9月のリーマンショックの直後にデフレ兆候を見抜いた。一方、政府が発表する消費者物価指数にデフレ傾向が現れたのは11月になってからだ。物価指数は、経済政策や企業の意思決定に影響を及ぼす。

3.答えがわかれば、理由は要らない

これまでは仮説を立て検証することを繰り返し、物事の現象を説明してきた。つまり因果関係を重視してきたわけだが、著者は、因果関係といっても人間の思い込みを出発点しているわけだからどれほどの正当性があるのか怪しいのではと疑問を呈している。そして因果関係がどうせ怪しいなら相関分析で十分で、実益があれば良いのではというのが主張である。例えば、中古車の品質を相関分析にかけたところ、オレンジ色に塗装された車は欠陥が大幅に少なく、他の車の平均値の半分ほどだったということだ。原因ははっきりしないが、中古車として品質が良いという実益があれば良いのではというところだ。

おわりに

ビックデータで何ができるようになるのか?ビジネスや日常生活にどういう利便性をもたらすか?という視点で書かれた本や記事は多いが、本書はそうした表面的な変化から一歩切り込み、科学的思考にもたらす影響を考察している点がユニークである。日本でベストセラーとなっている「統計学が最強の学問である」が文字通り統計学の重要性を訴えているのに対し、一部については考えを改める必要もありそうだ。また本書は科学的思考というやや抽象的な話題を主題に据える一方で、具体的な先進事例を豊富に取り上げており、情報通信産業に関わる仕事を行っている者に様々な気付きを与えてくれるだろう。

以上

ビックデータの正体 ~情報の産業革命が世界のすべてを変える~
V・M ショーンベルガー、K クキエ 著
2013/05/20 発行

関連記事

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

カレンダー

2020年11月
 1
2345678
9101112131415
16171819202122
23242526272829
30