大数据,还是大错误?.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据,还是大错误? 大数据是对于大规模现象的一种模糊的表达。这一术语如今已经被企业家、科学家、政府和媒体炒 得过热。 五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小 组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比 疾控中心 (CDC) 要快的多。谷歌的追踪结果只有一天的延时,而 CDC 则需要汇总大量医师的诊断结 果才能得到一张传播趋势图,延时超过一周。谷歌能算的这么快,是因为他们发现当人们出现流感 症状的时候,往往会跑到网络上搜索一些相关的内容。 ”谷歌流感趋势 不仅快捷、准确、成本低廉,而且没有使用什么理论。谷歌的工程师们不用费劲的去“ 假设哪些搜索关键字(比如 ”流感症状 或者“ ”我身边的药店 )跟感冒传染有相关性。他们只需要拿出“ 来自己网站上 5000 万个最热门的搜索字,然后让算法来做选择就行了。 谷歌流感趋势的成功,很快就成为了商业、技术和科学领域中最新趋势的象征。兴奋的媒体记者们 不停的在问,谷歌给我们带来了什么新的科技? 在这诸多流行语中, 大数据“ ”是一个含糊的词汇,常常出现于各种营销人员的口中。一些人用这个 词来强调现有数据量的惊人规模 —— 大型粒子对撞机每年会产生 15PB 的数据,相当于你最喜欢的一 首歌曲重复演奏 15000 年的文件大小。 然而在 大数据“ ”里,大多数公司感兴趣的是所谓的 现实数据“ ”,诸如网页搜索记录、信用卡消费记录 和移动电话与附近基站的通信记录等等。谷歌流感趋势就是基于这样的现实数据,这也就是本文所 讨论的一类数据。这类数据集甚至比对撞机的数据规模还要大(例如 facebook ),更重要的是虽然 这类数据的规模很大,但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱的堆积在 一起,而且可以实时的更新。我们的通信、娱乐以及商务活动都已经转移到互联网上,互联网也已 经进入我们的手机、汽车甚至是眼镜。因此我们的整个生活都可以被记录和数字化,这些在十年前 都是无法想象的。 大数据的鼓吹者们提出了四个令人兴奋的论断,每一个都能从谷歌流感趋势的成功中印证: 1) 数据分析可以生成惊人准确的结果; 2) 因为每一个数据点都可以被捕捉到, 所以可以彻底淘汰过去那种抽样统计的方法; 3) 不用再寻找现象背后的原因,我们只需要知道两者之间有统计相关性就行了; 4) 不再需要科学的或者统计的模型, ”理论被终结了 ”。《连线》杂志 2008 年的一篇文章里豪情万丈 的写到: 数据已经大到可以自己说出结论了“ “。 不幸的是,说的好听一些,上述信条都是极端乐观和过于简化了。如果说的难听一点,就像剑桥大 学公共风险认知课的 Winton 教授(类似于国内的长江学者 —— 译者注) David Spiegelhalter 评论的 那样,这四条都是 彻头彻尾的胡说八道“ ”。 在谷歌、 facebook 和亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中,现实数 据支撑起了新互联网经济。爱德华 .斯诺登揭露了美国政府数据监听的规模和范围,很显然安全部门 同样痴迷从我们的日常数据中挖掘点什么东西出来。 咨询师敦促数据小白们赶紧理解大数据的潜力。麦肯锡全球机构在一份最近的报告中做了一个计算 ,从临床试验到医疗保险报销到智能跑鞋,如果能把所有的这些健康相关的数据加以更好的整合 分析,那么美国的医疗保险系统每年可以节省 3000 亿美金的开支,平均每一个美国人可以省 下1000 美元。 虽然大数据在科学家、企业家和政府眼里看起来充满希望,但如果忽略了一些我们以前所熟知的统 计学中的教训,大数据可能注定会让我们失望。 Spiegelhalter 教授曾说到: 大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失“ ,它们只会更加突出。 ” 在那篇关于谷歌流感趋势预测的文章发表 4 年以后,新的一期《自然杂志消息》报道了一则坏消息 :在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天,在 海量数据分析和不需要理论模型的条件下提

文档评论(0)

tianya189 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体阳新县融易互联网技术工作室
IP属地上海
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档