第十讲大数据的处理和分析.pptx

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据的处理和分析 计算机科学导论第十讲;课 程 内 容;讲 座 提 纲;数据挖掘 数据挖掘的定义 1. 从数据中提取出隐含的、过去未知的、有价值 的潜在信息 2. 从大量数据或者数据库中提取有用信息的科学 相关概念:知识发现 1. 数据挖掘是知识发现过程中的一步 2. 粗略看:数据预处理?数据挖掘?数据后处理 预处理: 将未加工输入数据转换为适合处理的形式 后处理: 如可视化, 便于从不同视角探查挖掘结果;数据挖掘 典型事例:购物篮分析 顾客 一次购买商品 1 面包、黄油、尿布、牛奶 2 咖啡、糖、小甜饼、鲑鱼 3 面包、黄油、咖啡、尿布、牛奶、鸡蛋 4 面包、黄油、鲑鱼、鸡 5 鸡蛋、面包、黄油 6 鲑鱼、尿布、牛奶 7 面包、茶叶、糖、鸡蛋 8 咖啡、糖、鸡、鸡蛋 9 面包、尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、尿布、牛奶;数据挖掘 典型事例:购物篮分析 顾客 一次购买商品 1 面包、黄油、尿布、牛奶 2 咖啡、糖、小甜饼、鲑鱼 3 面包、黄油、咖啡、尿布、牛奶、鸡蛋 4 面包、黄油、鲑鱼、鸡 5 鸡蛋、面包、黄油 6 鲑鱼、尿布、牛奶 7 面包、茶叶、糖、鸡蛋 8 咖啡、糖、鸡、鸡蛋 9 面包、尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、尿布、牛奶 经关联分析,可发现顾客经常同时购买的商品:尿布?牛奶 ;大数据 大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息 例如: Google每天有来自全球30亿条搜索指令 ? 每天都有成千上万的人通过Google搜索信息,从出游的路线和耗时、治疗某种疾病的方法和某研究方向的最新学术资料,各式各样的搜索要求都有 ? 这样的搜索引擎无疑极大地方便了人们的生活和工作;大数据 大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息 这一系列搜索数据从侧面显示出搜索这些信息的人的本身情况,比如他们的想法、需求、忧虑等非常有价值的信息 如果这些搜索数据能准确地反映人们的生活和工作状况,那么就有可能利用这些信息来察觉商业趋势、避免疾病扩散、打击犯罪、测定实时交通路况和预测选举结果等;大数据 大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息 与小数据集的比较: 在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行大数据分析可得出许多额外的信息和数据关联性 这正是大型数据集盛行的原因 数据挖掘则是探讨用以解析大数据的方法 ;大数据案例—谷歌预测冬季流感的传播 2008年11月谷歌启动“谷歌流感趋势”(Google Flu Trends, GFT) 项目 GFT项目把5000万个美国人最频繁检索的词项与美国疾病预防控制中心告知的2003年~2008年季节性流感传播期间的数据进行比较,以确定相关检索词项 为测试这些检索词项的使用频率与流感在时间和空间上传播之间的联系,GFT共处理了4.5亿个不同的数学模型;大数据案例—谷歌预测冬季流感的传播 为测试这些检索词项的使用频率与流感在时间和空间上传播之间的联系,GFT共处理了4.5亿个不同的数学模型 在把得出的预测与2007年和2008年疾病预防控制中心记录的实际流感病例进行对比后,GFT的软件发现了45个检索词项的组合 把这些检索词项用于一个特定的数学模型后,其预测与官方数据相关性高达97% ;大数据案例—谷歌预测冬季流感的传播 2009年谷歌把研究成果发表在《自然》杂志上,这篇引人注目的论文令公共卫生官员和计算机科学家感到震惊 文章不仅预测了流感在全美的传播,而且具体到特定的地区和州 并且预测非常及时,不像疾病预防控制中心的信息会有一两周的延迟(因为人们从患病到求医会滞后,信息从医院传到疾控中心也需要时间,疾控中心每周只进行一次数据汇总) 信息滞后两周对一种飞速传播的疾病是致命的;大数据案例—谷歌预测冬季流感的传播 在论文发表后的几周内,出现了一种称为甲型H1N1的新流感病毒,它在短短几周内迅速传播开来,全球的公共卫生机构都担心一场致命的流行病即将来袭 这时,与习惯性滞后的官方数据相比,谷歌的预测是一个更有效、更及时的指示标,公共卫生机构的官员因此获得了非常有价值的数据信息 谷歌的方法不需要分发口腔试纸和联系医生,因为它是建立在大数据的基础之上;大数据的魅力;大数据的魅力;大数据的魅力;大数据的魅力;大数据

文档评论(0)

189****0315 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档