现在的位置: 首页 > 读书笔记 > 正文
【读书笔记】大数据:从因果到相关
2013年05月11日 读书笔记 ⁄ 共 2165字 【读书笔记】大数据:从因果到相关已关闭评论 ⁄ 被围观 2,439 views+

H7N9禽流感可是近一段时间有关公共卫生的热门话题,按照传统的方法,当地的卫生部门接到确诊的病例后会进行汇总上报,然后统一发布官方数据,且不说患者从发病到就诊、再到确诊需要时间,数据在卫生部门之间的传递也需要时间,所以,有关的疫情通报往往是滞后的。

然而,在2009年,甲型H1NI流感病毒肆虐时,谷歌公司通过对大量搜索数据的分析,就已经找到了“即时”公布疫情数据的方法,利用这种方法,当地的卫生部门可以更快地发现疫情并且采取针对性的防控措施。不需要派遣专门的医生、也不需要使用任何测试装置,谷歌用一种被称为“大数据”的方法,完成了这种惊人的“预测”。

用《大数据时代》这本书的定义,所谓的“大数据”能力就是指:“通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。”无论是亚马逊网站根据用户喜好所推荐的书目,Farecast公司对机票价格走势的“预测”,还是有的公司对电影票房、主角选择的“预测”,都体现出了这种特殊的“大数据”能力。

《大数据时代》这本书集中于大数据对思维、商业和管理三方面所产生的变革,显然,思维是基础,然后形成商业,最后才涉及管理。如果用一句话总结大数据对商业的变革,我认为应该是:“数据已经成为一项重要的资产/资源。”对于管理而言,我认为作者有关隐私保护的观点最有价值:“个人隐私保护,从个人许可到让数据使用者承担责任。”剩下的,就是有关大数据对思维变革的三个方面:

  • 1.不是随机样本,而是全体数据——大数据时代,用于分析的不再是“总体”里的样本,而是整个“总体”。(显然,这是在信息化社会中,人们对数据的处理和存储能力提高的结果)

  • 2.不是精确性,而是混杂性——大数据时代,个别不规范/错误的数据不会对分析结果造成太大影响,接受多样化的数据反而可以增加数据的规模。

  • 3.不是因果关系,而是相关关系——大数据时代,知道“是什么”就足以帮助我们解决问题,而不必再追求“为什么”。

与译者的立场一样,虽然我认可前两方面,但并不认可第三方面,我仍然是一位“因果关系”的坚定拥护者——但并不否认“相关关系”的巨大作用。结合从《思考,快与慢》中学习到的内容,我将重点关注大数据时代中的“因果关系”与“相关关系”——原书第三章,67页,也是我最喜欢的章节,因为它深化了我对这两种关系的理解。

*本书浅显易懂,目录部分清楚地刻画了全书的结构和主要内容,阅读后很容易查阅,能感受到作者和译者都很用心。

  • 当然,相关关系是无法预知未来的,它们只能预测可能发生的事情。但是,这已经极其珍贵了。(72页)

  • 我们知道因果关系只是一种特殊的相关关系。(89页)

以上,是我从全书中唯一勾画出来的两句话。

  • 第一句话的重点在于,虽然“建立在相关关系分析法基础上的预测是大数据的核心”(75页),我们仍然要承认“未来是不可预测的”——大数据并不是上帝的工具。

  • 第二句话的重点则在于,因果和相关两种关系被统一起来,其实,“因果关系只是一种特殊的相关关系”。

以下,是通过本书,我对“因果关系”和“相关关系”的进一步认识:(有关这两种关系可参阅《思考,快与慢》的笔记:【读书笔记】伪装成因果关系的“回归效应”

  • 1.因果关系博大精深,绝非“因为肚子饿了,所以想吃饭”这样简单,即使对于这样的问题,我们也可以继续追究“为什么肚子饿了,就想吃饭?”这样的问题。可见,“为什么”并不容易回答,而且证明起来其实非常困难(一个例外的结果就足以毁灭整个证明过程)。

  • 2.人们正是在寻找“因果关系”的过程中建立起了“理论”,依靠理论的解释,人们就可以根据原因得到结果(在结果还没发生之前就能知道结果)。所以,从某种意义上讲,“理论”与“因果关系”、“为什么”是同义词。

  • 3.比“因果关系”更广泛的是“相关关系”,对于两种事物,即使人们无法确认它们之间是否存在“因果关系”,只要能够确定存在“相关关系”(不论线性还是非线性相关),就可以通过一种事物来“预测”另一种事物,从结果来看,这和“因果关系”是一样的(所以,“回归效应”才可以伪装成“因果关系”)。

  • 4.在大数据时代,数据的处理和存储能力大大提升,人们正是通过收集大量的数据,然后利用各种分析方法,去发现隐藏在事物之间不易被直觉观察到的“相关关系”,然后利用这种关系,就可以达到与利用“因果关系”相同或接近的目的。

  • 5.当寻找“因果关系”(“为什么”)变得困难时(或者说还没有足够成熟的“理论”、甚至不可能有实用性的“理论”),人们可以转而去寻找“相关关系”(“是什么”),很多情况下一样可以达成目标。

  • 6.“相关关系”永远不会从价值上取代“因果关系”,这仅仅是人们无法找到“因果关系”(或者是寻找“因果关系”的成本很高)时,解决问题的变通手段,但是,只有找到“因果关系”才能从根本上彻底解决问题(以书中的例子为例:纽约通过大数据分析来寻找可能爆炸的沙井盖——找到与这种井盖有相关关系的关联物,但是,只有经过深入的分析和验证,才可能找出沙井盖爆炸的真正原因,从而彻底解决隐患——当然,成本也会很高)。

  • 7.如果说,在“因果关系”中,原因和结果之间必然存在100%的可能;那么,在基于大数据分析所发现的“相关关系”中,“原因”和“结果”(相关事物之间)之间永远不存在100%的可能——除非“理论”证明了这种“相关关系”是绝对存在的。

抱歉!评论已关闭.

×