- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据给了我们什么
大数据带给我们什么?大数据是对于大规模现象的一种模糊的表达。这一术语如今已经被企业家、科学家、政府与媒体炒得过热。五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心(CDC)要快的多。谷歌的追踪结果只有一天的延时,而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图,延时超过一周。谷歌能算的这么快,是因为他们发现当人们出现流感症状的时候,往往会跑到网络上搜索一些相关的内容。”谷歌流感趋势“不仅快捷、准确、成本低廉,而且没有使用什么理论。谷歌的工程师们不用费劲的去假设哪些搜索关键字(比如”流感症状“或者”我身边的药店“)跟感冒传染有相关性。他们只需要拿出来自己网站上5000万个最热门的搜索字,然后让算法来做选择就行了。谷歌流感趋势的成功,很快就成为了商业、技术与科学领域中最新趋势的象征。兴奋的媒体记者们不停的在问,谷歌给我们带来了什么新的科技?在这诸多流行语中,“大数据”是一个含糊的词汇,常常出现于各种营销人员的口中。一些人用这个词来强调现有数据量的惊人规模——大型粒子对撞机每年会产生15PB的数据,相当于你最喜欢的一首歌曲重复演奏15000年的文件大小。然而在“大数据”里,大多数公司感兴趣的是所谓的“现实数据”,诸如网页搜索记录、信用卡消费记录与移动电话与附近基站的通信记录等等。谷歌流感趋势就是基于这样的现实数据,这也就是本文所讨论的一类数据。这类数据集甚至比对撞机的数据规模还要大(例如facebook),更重要的是虽然这类数据的规模很大,但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱的堆积在一起,而且可以实时的更新。我们的通信、娱乐以及商务活动都已经转移到互联网上,互联网也已经进入我们的手机、汽车甚至是眼镜。因此我们的整个生活都可以被记录与数字化,这些在十年前都是无法想象的。大数据的鼓吹者们提出了四个令人兴奋的论断,每一个都能从谷歌流感趋势的成功中印证:1) 数据分析可以生成惊人准确的结果;2) 因为每一个数据点都可以被捕捉到, 所以可以彻底淘汰过去那种抽样统计的方法;3) 不用再寻找现象背后的原因,我们只需要知道两者之间有统计相关性就行了;4) 不再需要科学的或者统计的模型,”理论被终结了”。《连线》杂志2008年的一篇文章里豪情万丈的写到:“数据已经大到可以自己说出结论了“。不幸的是,说的好听一些,上述信条都是极端乐观与过于简化了。如果说的难听一点,就像剑桥大学公共风险认知课的Winton教授(类似于国内的长江学者——译者注)David Spiegelhalter评论的那样,这四条都是“彻头彻尾的胡说八道”。在谷歌、facebook与亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中,现实数据支撑起了新互联网经济。爱德华.斯诺登揭露了美国政府数据监听的规模与范围,很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。咨询师敦促数据小白们赶紧理解大数据的潜力。麦肯锡全球机构在一份最近的报告中做了一个计算,从临床试验到医疗保险报销到智能跑鞋,如果能把所有的这些健康相关的数据加以更好的整合分析,那么美国的医疗保险系统每年可以节省3000亿美金的开支,平均每一个美国人可以省下1000美元。虽然大数据在科学家、企业家与政府眼里看起来充满希望,但如果忽略了一些我们以前所熟知的统计学中的教训,大数据可能注定会让我们失望。Spiegelhalter教授曾说到:“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失,它们只会更加突出。”在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天,在海量数据分析与不需要理论模型的条件下提供了快速与准确的流感爆发趋势。然而这一次它迷路了,谷歌的模型显示这一次的流感爆发非常严重,然而疾控中心在慢慢汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍。问题的根源在于谷歌不知道(一开始也没法知道)搜索关键词与流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的,或许根本不可能。而发现两件事物之间的相关性则要简单与快速的多。就像Viktor Mayer-Sch?nberger 与 Kenneth Cukier 在《大数据》这本书中形容的那样:“因果关系不能被忽略,然而曾作为所有结论出发点的它已经被请下宝座了。”这种不需要任何理论的纯粹的相关性分析
您可能关注的文档
- 医疗质量评估标准.docx
- 医疗错误,缺陷登记记录.docx
- 医院健康保险新农村合作管理体系.docx
- 医疗诊断.docx
- 医疗器械召回管理系统.docx
- 医院医院编辑工作计划.docx
- 医院信息发布系统程序.docx
- 医院卡解决方案.docx
- 医院手术室施工标准.docx
- 医院放射工作系统.docx
- 2025年怀化师范高等专科学校单招职业技能考试题库必考题.docx
- 2025年江西工业贸易职业技术学院单招职业技能考试题库推荐.docx
- 2025年福建船政交通职业学院单招职业技能考试题库审定版.docx
- 2025年忻州职业技术学院单招职业技能考试题库a4版.docx
- 2025年江苏旅游职业学院单招职业技能考试题库带答案.docx
- 2025年云南外事外语职业学院单招职业技能考试题库完美版.docx
- 2025年潍坊工商职业学院单招职业技能考试题库及完整答案1套.docx
- 2025年沈阳北软信息职业技术学院单招职业技能考试题库完整.docx
- 2025年许昌陶瓷职业学院单招职业技能考试题库推荐.docx
- 2025年安徽邮电职业技术学院单招职业技能考试题库及完整答案1套.docx
文档评论(0)