- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据应用分析技术与方法——BigData目录第一章:大数据是信息社会的宝贵资源大...
大数据应用与分析技术
数据爆炸,知识贫乏,难以决策?
数据
知识
决策
大数据时代到来!
大数据及其相关技术
大数据概念的发展脉络
海量、多样、分布的、异构的数据。
概括为四个V:
大规模(Volume)
多样化(Variety)
快速增长(Velocity)
潜藏价值(Value)
“大数据是指具有以下三个特征的数据:大数据量(volume )、快速增长(velocity )及多数据来源及类型的数据(variety)
“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”
大数据是什么
形式多样(Variety)
信息价值(Value)
产生高速(Velocity)
规模巨大(Volume)
“大数据”是指数据海量、计算复杂的数据集合,其在一定时间内难以依靠已有数据处理技术来进行有效的采集、管理和分析。大数据通常满足“4V”特点。——方滨兴
大数据的基本概念
数量
海量
计算
复杂
大数据就像“航母”
利用起来是“威力巨大”;放着不动也“消耗巨大”
非结构化数据的超大规模,比结构化数据增长快10倍到50倍。
实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效
异构性(文本、图像、视频、机器数据),模式不明显,语法语义不连贯
大量的不相关信息,对未来趋势与模式的深度复杂分析(机器学习、人工智能)
互联网数据
2011年全球数据产生量达到1.8ZB,以每本书10MB计算,这个数字相当于七百万个中国国家图书馆的容量。
医疗保健数据
IBM建立的医疗保健和生命科学网格系统,2003年已有数据30PB,2006年增长至192PB,2012年超过500PB。
海洋气象数据
美国国家海洋大气总署NOAA年数据量高达30 PB,从卫星,船只,飞机,浮标,以及它处传感器获取超过35亿份观测数据。
基因工程
美国国立基因组研究所宣布,“千人基因计划”所产生的数据总量已达到200TB,成为世界上最大的人类基因变异数据集。
数据的度量尺度
1KB=103B
1MB=106B
1GB=109B
1TB=1012B
1PB=1015B
1EB=1018B
1ZB=1021B
1YB=1024B
从TB级别,跃升到PB级别,甚至ZB级别
大数据的特点
大数据时代 – 数据爆炸
地球上至今总共的数据量:
2006 年,全球新产生了约180EB的数据
2011 年,这个数字达到了1.8ZB
至2020 年,整个世界的数据总量将会增长44 倍,达到35.2ZB(1ZB=10 亿TB)
至2017年,全球IP流量达每年1.4ZB,年复合增长率达23%
连入IP网络的设备是世界人口的三倍
新摩尔定律: 数据量每18个月翻一番
电信运营数据
中国联通上网记录每秒83万条,每月1万亿条(300TB)
天文数据
美国大口径望远镜每两周对太空观测一遍,每天产生16TB数据,5年总数据量将达到15PB。
企业运行数据
2000年全球新产生的数据量为1000PB到2000PB,到2010年仅仅全球企业一年新存储的数据量就超过了7000PB。
数据持续产生高速,并要求实时处理
数据的度量尺度
1KB=103B
1MB=106B
1GB=109B
1TB=1012B
1PB=1015B
1EB=1018B
1ZB=1021B
1YB=1024B
大数据的特点
大数据时代 – 数据爆炸
Internet上1分钟发生了:
639TB IP流量
2亿 封邮件
70万 Facebook更新
30小时 Youtube新增视频
70万 Google搜索
数据类型繁多,如文本、视频、音频、图片等及其变化组合
大数据的特点
多样化的数据来源
25+ TBs oflog data every day
? TBs ofdata every day
数据来源和数据通道
12+ TBs of tweet data every day
可用信息在数据总量中的比例低,但其潜在价值巨大
大数据的特点
大数据 - 问题空间
Volume
PB+
数据处理
实时数据
流数据
非再现数据
TB
PB
EB
结构化
非结构化
半结构化
价值
Velocity
实时处理
Value
海量数据挖掘
Variety
多数据类型
交叉分析
大数据分析技术是对大数据的产生、存储、挖掘和展现的全生命周期进行综合分析处理的过程.
大数据分析
通过大数据分析,可以发现隐藏于其中的有价值的信息和知识.
大数据分析意义
大数据分析应用—波士顿马拉松爆炸案
Google基于搜索数据和历史信息,预测流行性感冒的爆发与强烈等级。
2009成功预测美国甲型H1N1爆发;
2013年1月准确判定美国的流感活动等级为“强烈”(与美国疾病防控中心的报告一致)
大数据分析应用—流行病
原创力文档


文档评论(0)