- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
策划部
天津市西青经济开发总公司建设服务公司
大数据与云计算
2016.5.25
数博会
大数据是继传统IT之后
下一个提高生产率的技术前沿
麦肯锡全球研究院 (MGI)
《大数据:下一个创新、竞争和生产力的前沿》
麦肯锡公司是全球最著名的管理咨询公司,在全球44个国家和地区开设了84间分公司或办事处。麦肯锡目前拥有9000多名咨询人员,分别来自78个国家,均具有世界著名学府的高等学位。
1.什么是数据
数据(data资料)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。
数据是信息的表现形式和载体,可以是:
符号、文字、数字、语音、图像、视频等。
条数据: 例如一套房子
定位数据:北纬26度,东经106度;用数字和字母书写是:26°N,106°′E.
定性数据: X X市X X路X号X单元号(靠近省委、十八中学、甲秀小学)
定量数据:建筑面积90,使用面积75
定时数据:建于1987年,1998年购置
信息数据:周矩,男,XX岁,电结 论: 估价45万
大数据与传统数据
传统数据:
普查数据 统计数据
抽样数据 测量数据
例如:国民经济和社会发展统计公报
大数据有两层含义:一是海量数据,指其量大,或者称为全数据;二是指分析方法,指的是对所有数据进行分析
大数据到底有多大?
TB(1024GB=1TB) 2的40次方
PB(1024TB=1PB) 2的50次方 100万G
EB(1024PB=1EB) 2的60次方 10亿G
ZB(1024EB=1ZB) 2的70次方 1万亿G
15寸500G电脑(22亿台)排成行可以往返一次月球。
YB(1024ZB=1YB) 2的80次方 1千万亿G
从Byte、KB、MB、GB、TB到PB、EB、ZB、YB。
Intel:人类文明开始到2003年,地球共产生5EB数据。
2012年全年,全球产生数据2.7ZB是2003年以前的500倍。
2015年,全球估计产生数据8ZB,等于1800万个美国国会图书馆。
数据增长迅速
大数据的定义
大数据或称巨量资料
指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据分析相比与传统的数据仓库应用,具有数据量大、查询分析复杂等特点。
大数据时代的背景
21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。
互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。
“大数据”的诞生:
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。
大数据的5V特点(IBM提出):
Volume 大 量(积累性)
Velocity 高 速(即时性)
Variety 多 样(多维度)
Value 价 值(有用性)
Veracity 真实性(客观性)
基本定义:大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集合。“大数据”与“大规模数据” 的最大区别,就在于“大数据”这一概念中包含着对数据对象的处理行为。
如何界定大数据智能数字采集(数字化)
实时同步上传(云聚集)
智能即时分析(云计算)
自动需求发布(云推送)
各种数字化设备采集同步传输到数据云(云存储)智能软件分类、归纳、分析,生成结果自动按需求发布到特定用户
什么是“数字化”
二进制:0(关)1(开)
二进制编码:
阿拉伯数字690102819104
对应各数字的二进制编码:这几位条形码的二进制编码是:0110100100000001000000101000000110010001000001000011。
数字化不是“数字”,而是编码化的“数据”
大数据关键技术
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用。
大数据关键技术
大数据采集技术
获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。
大数据预处理技术
主要完成对已接收数据的辨析、抽取、清洗等操作。
大数据存储及管理技术
大
文档评论(0)