大数据应用与分析技术.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据应用分析技术与方法——BigData目录第一章:大数据是信息社会的宝贵资源大...

大数据应用与分析技术 数据爆炸,知识贫乏,难以决策? 数据 知识 决策 大数据时代到来! 大数据及其相关技术 大数据概念的发展脉络 海量、多样、分布的、异构的数据。 概括为四个V: 大规模(Volume) 多样化(Variety) 快速增长(Velocity) 潜藏价值(Value) “大数据是指具有以下三个特征的数据:大数据量(volume )、快速增长(velocity )及多数据来源及类型的数据(variety) “大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。” 大数据是什么 形式多样(Variety) 信息价值(Value) 产生高速(Velocity) 规模巨大(Volume) “大数据”是指数据海量、计算复杂的数据集合,其在一定时间内难以依靠已有数据处理技术来进行有效的采集、管理和分析。大数据通常满足“4V”特点。——方滨兴 大数据的基本概念 数量 海量 计算 复杂 大数据就像“航母” 利用起来是“威力巨大”;放着不动也“消耗巨大” 非结构化数据的超大规模,比结构化数据增长快10倍到50倍。 实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效 异构性(文本、图像、视频、机器数据),模式不明显,语法语义不连贯 大量的不相关信息,对未来趋势与模式的深度复杂分析(机器学习、人工智能) 互联网数据 2011年全球数据产生量达到1.8ZB,以每本书10MB计算,这个数字相当于七百万个中国国家图书馆的容量。 医疗保健数据 IBM建立的医疗保健和生命科学网格系统,2003年已有数据30PB,2006年增长至192PB,2012年超过500PB。 海洋气象数据 美国国家海洋大气总署NOAA年数据量高达30 PB,从卫星,船只,飞机,浮标,以及它处传感器获取超过35亿份观测数据。 基因工程 美国国立基因组研究所宣布,“千人基因计划”所产生的数据总量已达到200TB,成为世界上最大的人类基因变异数据集。 数据的度量尺度 1KB=103B 1MB=106B 1GB=109B 1TB=1012B 1PB=1015B 1EB=1018B 1ZB=1021B 1YB=1024B 从TB级别,跃升到PB级别,甚至ZB级别 大数据的特点 大数据时代 – 数据爆炸 地球上至今总共的数据量: 2006 年,全球新产生了约180EB的数据 2011 年,这个数字达到了1.8ZB 至2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB) 至2017年,全球IP流量达每年1.4ZB,年复合增长率达23% 连入IP网络的设备是世界人口的三倍 新摩尔定律: 数据量每18个月翻一番 电信运营数据   中国联通上网记录每秒83万条,每月1万亿条(300TB) 天文数据 美国大口径望远镜每两周对太空观测一遍,每天产生16TB数据,5年总数据量将达到15PB。 企业运行数据 2000年全球新产生的数据量为1000PB到2000PB,到2010年仅仅全球企业一年新存储的数据量就超过了7000PB。 数据持续产生高速,并要求实时处理 数据的度量尺度 1KB=103B 1MB=106B 1GB=109B 1TB=1012B 1PB=1015B 1EB=1018B 1ZB=1021B 1YB=1024B 大数据的特点 大数据时代 – 数据爆炸 Internet上1分钟发生了: 639TB IP流量 2亿 封邮件 70万 Facebook更新 30小时 Youtube新增视频 70万 Google搜索 数据类型繁多,如文本、视频、音频、图片等及其变化组合 大数据的特点 多样化的数据来源 25+ TBs of log data every day ? TBs of data every day 数据来源和数据通道 12+ TBs of tweet data every day 可用信息在数据总量中的比例低,但其潜在价值巨大 大数据的特点 大数据 - 问题空间 Volume PB+ 数据处理 实时数据 流数据 非再现数据 TB PB EB 结构化 非结构化 半结构化 价值 Velocity 实时处理 Value 海量数据挖掘 Variety 多数据类型 交叉分析 大数据分析技术是对大数据的产生、存储、挖掘和展现的全生命周期进行综合分析处理的过程. 大数据分析 通过大数据分析,可以发现隐藏于其中的有价值的信息和知识. 大数据分析意义 大数据分析应用—波士顿马拉松爆炸案 Google基于搜索数据和历史信息,预测流行性感冒的爆发与强烈等级。 2009成功预测美国甲型H1N1爆发; 2013年1月准确判定美国的流感活动等级为“强烈”(与美国疾病防控中心的报告一致) 大数据分析应用—流行病

文档评论(0)

_______ + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档