大数据时代下的数据挖掘简易.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据时代下的数据挖掘简易

总结与展望 现状:作为一个新兴的研究领域,数据挖掘已经取得了广泛和重大进展。应用到众多领域,出现了大量的商品化数据挖掘系统 发展方向:对现有方法进一步改进,研究发展数据挖掘语言的标准化,可视化方法和处理复杂数据类型的新方法 目前面临困难:成功案例少,中小企业需求少,人才稀缺。 为了更好的理解什么是大数据,我们先来看两个具体的实例。 第一个是关于公共卫生方面的,在2009年,甲型H1N1流感(就是我们俗称的甲流)在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周。 Google每天会收到来自于全球超过30亿条的搜索指令,其中也包含“咳嗽、发烧、甲流”等方面的搜索引擎,但到底哪些词条更重要需要进行分析,Google处理了5000万条历史记录、4.5亿个不同的数学模型。在将得出的预测与2007年、2008年美国疾病控制中心的实际流感病例进行对比之后,Google的软件发现了45条检索词条的组合,将这些词条用于一个特定的数学模型后,Google的预测结果与官方的结果相关性达到了97%,这样Google能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。而且不需要像卫生部门那样发放口腔试纸以及联系医生,大幅度降低了成本。 * 再来看另一个例子, 季节、航空公司营销策略等众多因素都可能影响机票的价格,Farecast是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。 最初预测系统建立在41天之内的12000个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过2000亿条飞行记录。 系统只推测机票的价格何时最便宜,不关心是什么原因导致的价格下降。 该公司已经被微软以1.1亿美元收购,加入到了Bing搜索系统中 * 数据量巨大,具体多大量的数据才能算做大数据是没有统一标准的,根据行业领域有所不同,数据量越大越容易得出准确的预测结果,但数据量越大需要的存储设备越多、处理的时间越长。 实时性高,如果Google判断出流感的来源与卫生部门的一样,如果Farecast预测出便宜机票的出售时间已经过期,这样的预测就没有任何意义,只有比传统方式更快得到正确的预测结果才能够体现出大数据的价值。 主要用于预测,目前的大数据领域主要工作方式是通过计算机的强大数据处理能力从海量的数据中找到人们依靠以往经验很难发现和理解的关联,通过这些关联来进行预测。今后完全有可能从大数据中找到更多的价值。 更关注相关性,即“结果是什么”,至于“为什么会这样”,大数据本身往往并不能给出答案。 * 大数据时代 生活、工作与思维的大变革 Living, working and thinking big changes 大数据开启了一次重大的时代转型。就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发…… 一场生活、工作与思维的大变革 一场生活、工作与思维的大变革 大数据,变革公共卫生 大数据,变革商业 大数据,变革思维 大数据,开启重大的时代转型 预测,大数据的核心 大数据,大挑战 什么是大数据 2009年,甲型H1N1流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周,而Google对人们的搜索的历史记录进行处理,建立合理的数学模型后,得到的预测结果与官方的数据相关性高达97%,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。 Google处理了5000万条历史记录、4.5亿个不同的数学模型。 什么是大数据 Farecast是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。 最初预测系统建立在41天之内的12000个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过2000亿条飞行记录。 系统只推测机票的价格何时最便宜,不关心是什么原因导致的价格下降。 Farecast→Bing 大数据的特性 大数据 的特性 更关注 相关性 主要用 于预测 数据量 巨大 实时性 要求高 大数据时代的思维变革 大数据时代的商业变革 大数据时代的管理变革 一、大数据时代的思维变革 一、大数据时代的思维变革—更多 “更多”——不是随机样本,而是全体数据 当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。 让数据“发声” 小数据时代的随机采样,最少的数据获得最多的信息 全数据模式,样本=总体 一、大数据时代的思维变革—更杂 “更杂”——不是精确

文档评论(0)

rabbitco + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档