大数据行业发展与基本概念_V10410.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据根本概念与行业开展大数据的起源12数据开展简史3国内行业开展电影?点球成金?布拉德?皮特主演的?点球成金?是一部美国奥斯卡获奖影片,所讲述的是皮特扮演的棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够取得巨大的成功。 基于历史数据,利用数据建模定量分析不同球员特点,合理搭配,重新组队;打破传统思维,通过分析比赛数据,寻找“性价比〞最高球员,运用数据取得成功;不可再生资源VS数据仅供开采162年仅供开采45年仅供开采60年2021年全球数据总量1.2ZB,年增长50%数据不再是社会生产的“副产物〞,而是可被二次乃至屡次加工的原料,从中可以探索更大价值,它变成了生产资料。2021年,10分钟的信息总量将达1.8ZB2021年全球数据总量将到达40ZB数据爆炸式增长〔每分钟……〕13000+个iPhone应用下载Skype上37万+分钟的语音通话Twitter上发布98000+新微博上传6600张新照片到flickr发出1.68亿+条EmailYouTube上上传600+新视频淘宝光棍节10680+个新订单12306出票1840+张13542挑战传统处理方式所无法解决的挑战处理速度要求越来越快数据应用模式创新非结构半结构混杂数据体量越来越大更丰富的视觉元素需要性价比更高的储存方式数据库数据仓库需要不同的数据管理策略15% 结构化的 DB/DW当我们想要扩充时,才觉察:架构只能scale-up,scale-out不易处理时间过长,time-to-value受限本钱过高,cost-efficiency受限遗憾85%半/非结构化的Log/Web page/Email/PDF/Image/Full-text/MS-Office file 残缺需要更高效的计算方式时间传统大数据规模什么是大数据?维基百科:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油〞大数据的“4V〞特征容量Volume数据体量巨大。从TB级别,跃升到PB级以上。多样Variety数据类型繁多。日志、视频、图片、GIS等。速度Velocity秒级定律。一般要求在秒级内给出分析结果。价值Value利用低价值密度数据,可以带来高价值回报。更多的“V〞可变性Variability数据的含义总是在快速变化的。要考虑具体的上下文。真实性Veracity确保数据的真实性,才能保证数据分析的正确性。可视化Visualization只有正确的可视化,原始数据才可被投入使用。大数据的起源12数据开展简史3国内行业开展数据概述在人类开展历程中,数据表现方式分为两类:模拟数据〔声音,文件,图像,视频〕数字数据〔文字,符号〕自从计算机创造以来,数据在计算机中都是以二进制0和1的形式进行保存。鉴于对数据的分类管理需要,随之而来各种各种的数据管理软件应运而生。数据开展的五个阶段NoSQLNewSQL关系型数据库大数据集群化数据仓库第一阶段 关系型数据库第二阶段 数据仓库面向主题DW - Data Warehouse数据是按照一定的主题域进行组织,一个主题通常与多个操作型信息系统相关。集成的必须保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定某个数据进入数据仓库之后,一般情况下将被长期保存,修改和删除操作很少。反映历史变化用于支持管理决策仓库中的数据通常包含历史信息,反映过去某一时点到目前的各个阶段的信息。ETLBI第三阶段 NoSQL、NewSQLNewSQL分析分析大数据时代OldSQL架构多元化OldSQL事务NoSQL互联网事务互联网键值存储数据库列式存储数据库文档存储数据库NoSQL互联网文件存储数据库图像存储数据库消息队列系统NewSQL分析第四阶段 集群化高可用通常采用Master-Slave或者P2P模式,保障数据的灾备。分片将大规模数据按照一定规那么拆分,不同的分片存储在不同的结点。复制数据通常会在集群的多个结点中留存多个数据副本,以保证可靠。混合应用不同的业务场景,会混合使用多种不同的数据存储系统。分片处理前分片处理后效劳器1片效劳器1片效劳器2片效劳器3复制前复制后主从复制or对等复制效劳器1效劳器1效劳器3效劳器2第五阶段 大数据让大象跳舞Hadoop2.0生态流式计算框架搜索引擎框架某政务大数据工程架构大数据的起源12数据开展简史3国内行业开展大数据是如何成为网红的?国家工信部发布物联网十二五规划第一款商用Hadoop工程诞生在我国政府报告中大数据首次出现大数据“十三五〞规划出台2005年2008年2012年2016年2015年2014年2011年在美国发表第一个关于大数据的白皮书成为世界经济论坛重要主题之一国务院印发?促进大数据开展行动纲要?我

文档评论(0)

189****5087 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7102116031000022
认证主体仪征市思诚信息技术服务部
IP属地江苏
统一社会信用代码/组织机构代码
92321081MA278RWX8D

1亿VIP精品文档

相关文档