大数据思维尚未形成.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

??

?

??

大数据思维尚未形成

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

文/TimHarford

5年前,谷歌的一个研究团队在著名科学期刊《自然》上发布了一项令人瞩目的研究成果:不需要任何医疗检验结果,该小组能够追踪到当时扩散在全美的流感趋势,而且追踪速度比美国疾病控制中心(CDC)要快得多。谷歌的追踪只比流感爆发晚了一天,而CDC却花了一周甚至更多的时间来汇总一张流感传播趋势图。显然谷歌的速度更快,因为它通过寻找“在线搜索”和搜索“人是否患有流感”二者之间的相关性和规律,成功追踪到流感传播的趋势。

谷歌流感趋势不仅快速、准确、成本低,而且不需要任何理论支持。谷歌的工程师没心思开发一套假设理论研究什么样的词条可能和疾病有关,而是挑出5000万条最靠前的词条,让搜索法则自行运算,得出结果。由此,谷歌流感趋势成为商业界、技术界、科学界具有代表意义的“大数据”成功案例。

正如许多流行语一样,“大数据”是一个含糊不明确的词语,经常被人们信手拈来又随手抛去。有人会特别提到数据组的规模,例如LargeHadronCollider的电脑,一年能够储存15千兆字节,相当于音乐播放1500年留下的数据。实际上,吸引了众多公司注意力的“大数据”可以被称作“寻获的数据”,其发生在网络搜索、信用卡支付、手机感应到最近的电话信号平台。比如谷歌流感趋势就是建立在已经被寻获的数据上的,这样的数据组可以更庞大。值得注意的是,相对于庞大的规模,数据的收集实际上很便宜。现代社会随着人们的沟通、休闲和商务活动都转移到网络(包括移动网络),生活在以一种十年前难以想象的方式,被记录和被量化。数据点的随意拼贴,收集起来用于不同的目的,同时可以实时更新。

如何捕捉大数据

大数据的拥护者们总结出了四个结论,而每一条都存在于“谷歌流感趋势”的成功案例中:1.数据分析产生了惊人的准确结果;2.每一个数据点都可以被捕捉,这使得过去的统计抽样技术显得十分过时;3.数据背后的原因纠结显得过时,因为数据的相关性已经告诉了我们需要知道的信息;4.科学或数据模型是不需要的。

虽然大数据向科学家、企业家以及政府展现出了光明前景,然而这四条理论完全是出于最乐观、最单纯的角度,如果忽略了一些过去的经验教训,它也注定会让人们失望。在关于谷歌流感趋势预测的文章发表4年以后,《自然》杂志报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。虽然过去几年的冬天,谷歌流感趋势信心满满地提供了一系列迅速准确的流感爆发情况统计信息。但不知从何时开始,这个模型渐渐失去对流感的灵敏嗅觉。在谷歌的模型数据中显示将有一场严重的流感爆发,但当疾病防治中心最终将漫无边际但依旧准确可靠的数据送达时,这些数据表明谷歌对流感疾病传播情况的预测夸大了近两倍。

问题是谷歌不知道甚至根本无法知道是什么原因将搜索词条和流感的传播联系在一起。谷歌的工程师也并没有试图搞清楚背后的原因,他们只是简单地寻找数据中的规律。比起前因后果,他们更在乎数据之间的相关性。这种情况在大数据分析中相当常见,但要想搞清楚前因后果很困难,不过搞清楚哪些数据是相互关联的则成本更低,也更容易。因而,ViktorMayer-Sch?nberger和KennethCukier在他们的著作《大数据》中写道:“在大数据分析中针对因果关系的探究不会被丢弃,但是它正渐渐撤出数据研究的主要基石地位。”

那些没有理论支持而只着重于数据相关性的分析必然是脆弱且站不住脚的。如果人们不明白表象相关性背后的事情,那么就不会知道什么原因会导致那种相互关联性的破裂。关于谷歌流感趋势失败的一种解释,2012年12月的新闻里总是充满了耸人听闻的故事,而这些故事激发了那些健康人群在线搜索的兴趣。另一个可能性解释是,谷歌自身的搜索法朝令夕改,当人们输入信息时,系统会自动提示诊断信息。

在过去的200年里,统计学家们一直致力于弄清楚是什么阻挡了人们单纯地通过数据来理解这个世界。虽然当前世界数据的量更大,传播速度更快,但是并非意味着过去那些陷阱都已经安全处理了,因为事实上它们并没有消失。

大数据的偏差难题

1936年,共和党人AlfredLandon参加和总统FranklinDelanoRoosevelt一起的总统竞选,知名杂志《文学文摘》肩负起了大选结果的预测责任。杂志社发起了一次邮政民调活动,目的在于将测验送达1000万人民手中,这个数字接近真实选民数的1/4。回复如洪水般涌来,杂志社很享受这种大范围的任务。在8月末期,报道说:“下周,1000万名选票中的第一批人将开始经历候选人的第一轮,进行三次检验,核实,五次交叉分类和汇总。”

在统计了两个月内收回的240万张选票后,《文学文摘》最终发布调查结果:Landon将以55:

文档评论(0)

151****1898 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档