- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
他们让大数据变商机——Google、UPS、亚马逊成功经验
责任编辑:editor006?|??2015-05-21 16:25:41?本文摘自:中国大数据
大数据掀起的革命,正在全面影响你我的生活。面对如此大量数据,该怎麽用?如何正确解读?国外企业成功经验,可以做为借镜。
一场大数据分析的「数据革命」登场,正掀起生活、工作和思考方式的全面革新。然而,面对杂乱无章的大数据,究竟怎麽理出头绪,却成了大家最头痛的问题。
麻省理工学院教授 Erik Brynjolfsson,具体研究擅长使用数据来决策的公司,整体绩效比不用数据的企业,生产力至少高出 6%,例如,Google、亚马逊等企业竞争力不断往上提上,而不少新创公司则因为有大数据思惟,成为明日之星。《大数据》作者、牛津大学教授 Mayer-Schonberger 提出使用大数据,五大最重要观念,只要跟着这样的逻辑,大家都可能成为新赢家。
1. 数据数量远比品质更重要
成功案例:Google
在大数据时代下,数据数量已比数据品质重要。涵盖 60 种语言的 Google翻译,就是一个绝妙例子。早在 1990 年代,IBM 的专家曾开发一套 Candide 翻译系统,采用加拿大国会的英法语双语文件,大约是 300 万个句对,训练电脑读懂使用机率,到底 A 语言的辞汇,最有可能对应到 B 语言的哪个词汇,来增加翻译的精准度,把翻译转换成数学问题 但後来进展却不大,终告放弃。
2000 年时,微软语言处理专家发现,当他们在进行文法校正的「机器学习」时,随着输入的数据量不断增加,准确度显着提升,他们当时下了一个假设,「或许我们要重新考虑,是要砸钱来开发程式演算法,还是扩大语料库。」
接受不精确 先求扩大数据规模
几年之後,Google 也决定投入翻译领域,但不同於 IBM 使用 300 万个精心翻译的句子,而是使用手边更庞大、更混乱的数据集。Google 的翻译系统母体大至全球网络,广达数十亿个翻译网页,有高达兆字的语料库,收录所找到的每一则翻译,用来训练电脑。
数据来源包含各公司网站、官方文件的多语翻译,国际组织的多语报告,或是Google图书扫描计画,纳入的书籍翻译,甚至包含网上各种断简残篇、品质参差不齐、混乱的数据。这样一来,翻译的准确度再度提升,甚至某个英文字之後,出现另外一个字的机率,都能够计算出来。
Google 人工智慧专家指出,Google 使用的数据,常有不完整的句子,拼字错误、文法缺误,但正因为拥有比其他语料库多出千万倍的数据,足以盖过缺点。因此,进入大数据时代的第一个观念,就是要接受,数据「数量」远比数据「品质」重要,而且要接受杂乱,不能事事要求精确。
2. 找相关性而非执着因果关系
成功案例:纽约市公安管理
以纽约市为例,每年都因为地下管道火灾,付出不少代价,路面上重达140公斤的铸铁人孔盖更常因为闷烧爆炸,飞到几层楼高,再砸回地面,造成严重公安困扰。但纽约市的地下电缆,长度超过15万公里,足以绕地球三圈半,光曼哈顿就有超过5万1000个人孔盖,数量之多,就算每年定期检查,意外仍然防不胜防。
负责管理的爱迪生联合电力公司,找上哥伦比亚大学统计专家鲁丁(Cynthia Rudin)协助。怎麽做呢?第一步,他们先蒐集1880年到2008年管路历史数据,但光是要表达「维修孔」,就有38种不同的写法,数据杂乱无章。研究的重点,在於找出「相关性」。不在於「为什麽会爆炸」,而是「哪个人孔会爆炸」。
挑有效指标 逐步缩小问题范围
研究小组从 106 个重大人孔灾害预测指标下手,慢慢去芜存菁,最後剩下几个最有效的指标。接着他们再缩小范围,仅研究某一区的地下电缆,分析截至2008年的数据,来预测 2009 年的危险人孔位置,结果小组列出的前 10% 危险清单,的确有 44% 曾发生过严重事故,也据此找出最有相关性的几个指标。
最後,小组发现「电缆年份」和「过去是否发生事故」,是最重要的判断指标,依此原则来替市区几万个人孔盖排定检查顺序。虽然答案好像显而易见,但是过去却浑然未觉,直到分析团队用大数据的科学验证,大家才恍然大悟。
纽约市还有另一个严重问题,是住宅非法改建,不少房子都隔成许多小间,住了比原本设计多十倍人数,常发生火灾。为了减少意外死亡,政府需要知道的,反而不是为何有如此多非法住宅,而是这些非法住宅到底在哪里?
怎麽找出来?第一,先取得全市 90 万笔住宅数据,再整合 19 个机构数据,像房屋税缴纳状况、是否为法拍屋、水电费是否异常,都纳入考虑。团队也纳入住宅屋型、年份、救护车出勤率、鼠患、非法改建投诉等数据,再拿来与五年来火灾程度数据比对,找出「相关性」来建立预测系统。
除了已记录的数据,市府团队还访问了资深检查员,尽可能找出更多可以比对的指标。例如,他们从老干员的口中,发
您可能关注的文档
最近下载
- Q/GDW 13239.1—2018 35kV电力电缆采购标准(第1部分:通用技术规范).pdf VIP
- 水电解质酸碱代谢失衡病人的护理失衡.ppt VIP
- Q∕GDW 13247.2-2018 35kV电力电缆附件采购标准 第二部分:专用技术规范(高清-可复制).pdf VIP
- 2024届高考英语一轮总复习选择性必修第二册Unit3FoodandCulture教师用书.doc VIP
- 医学检验生物安全培训课件.pptx VIP
- 高三化学教学反思15篇.pdf VIP
- 河南成人2024学位英语考试真题及答案.docx VIP
- 中药新药临床研究.pptx VIP
- 2024届高考英语一轮总复习选择性必修第二册Unit1ScienceandScientists教师用书.doc VIP
- 农田喷灌工程施工方案(3篇).docx VIP
文档评论(0)