大数据时代ppt模板参考.ppt

下载文档 降价啦

135
0
约1.07万字
约 31页
2019-01-16 发布于山东
举报
版权申诉
保障服务

大数据时代ppt模板参考.ppt

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

结构化数据向非结构化数据演进，使得未来IT投资重点不再是建系统为核心，而是围绕大数据为核心；海量数据可以在各个部门创造重大的财物价值，未来投资倾斜。商业价值用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析用户行为分析 * 数据增长速度与it界的摩尔定律很类似，社交网络、物联网、电子商务，35ZB 的数据全部刻录到容量为9GB 的光盘上，其叠加的高度将达到233 万公里，相当于在地球与月球之间往返三次，全球在2010 年正式进入ZB 时代，预计到2020 年，全球将总共拥有35ZB 的数据量。我们正处于大数据时代的边缘。 85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据,如今的数据类型早已不是单一的文本形式，订单、日志、音频，能力提出了更高的要求 * 85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据 * 如果你有一杯水，你可以把他喝掉，如果你有一桶水，你可以用来洗衣做饭，如果你有一房子水，那你一定是遭水灾了。云计算的核心是业务模式，本质是数据处理技术。数据是资产，云为数据资产提供了保管、访问的场所和渠道。如何盘活数据资产，使其为国家治理、企业决策乃至个人生活服务，是大数据的核心议题，也是云计算内在的灵魂和必然的升级方向。大数据技术将是IT 领域新一代的技术与架构，他将帮助人们从大体量，高复杂的数据中提取价值。 * 近几年，云计算的概念受到了学术界、商界，甚至政府的热捧，除了亚马逊、微软、IBM、ORACLE、谷歌这些行业巨头之外，很多大公司也纷纷在云计算这个领域上取得了成绩，一时间云计算无处不在。此前，IT沙龙班组也就云计算这个主题进行过两次深入介绍，在这里就不再赘述了。随着云计算的概念深入人心，另外一个名词也渐渐走入人们的视野：大数据！进入IT时代以来，我们积累了海量的数据，这些数据不断急速增加，给我们的时代带来两个方面的巨变：一方面，在过去没有数据积累的时代无法实现的应用现在终于可以实现；另一方面，从数据匮乏时代到数据泛滥时代的转变，给数据的应用带来新的挑战与困扰，简单的通过搜索引擎获取数据的方式已经不能满足我们千变万化、层出不穷的应用需求，如何从海量数据中高效的获取数据，有效的深加工并最终得到感兴趣的数据变的异常困难。我认为，云计算与大数据是一对相辅相成的概念，而他们的关系则是静与动的关系：云计算强调的是计算和存储，这是动的概念；而数据是计算的对象，是静的概念。 * Brewer在加大伯克利分校获得了计算机科学学士学位，随后在麻省理工学院获得计算机科学硕士和博士学位。32岁时，他拿到了伯克利的终身教授职位。2007年，Brewer教授指出：CAP永远不可能同时满足，提高其中任意两者的同时，必然要牺牲第三者，后来由麻省理工学院的两位科学家证明。这个定理告诉大家，不要再浪费时间去研究如何兼顾了，因为这根本就是不可能的，只能根据具体应用，来决定如何在三者之间进行取舍。CAP理论为很多巨型的数据中心，尤其是现在很多的SNS网站提供了有力的理论指导，比如说Google的BigTable系统就是一个牺牲了A的典型例子。就在提出CAP理论的同一年，Brewer当选美国国家工程院院士，并于次年当选ACM Fellow。 * Yammer是一个企业社会化网络服务，提供通信平台，还包括投票、聊天、活动、链接、主题、问答、想法等功能。目前已经被微软收购。Cloudera是一家专业从事基于Apache Hadoop的数据管理软件销售和服务的公司。以这两家公司为代表，以及很多分布式领域的研究人员都认为，分区容错性是不能牺牲的。对大型网站，可用性与分区容忍性优先级要高于数据一致性，一般会尽量朝着A、P的方向设计，然后通过其他手段保证对于一致性的商务需求。 * Key Value是分布式存储的一种重要方式。查询速度快、存放数据量大、支持高并，但不能进行复杂的条件查询。如果辅以实时搜索引擎进行复杂条件检索、全文检索，可替代并发性能较低的关系型数据库，节省几十倍服务器数量。它的数据结构是一个B+树，也就是多路搜索树, 数据存储在叶子节点上，非叶子节点作为叶子节点的索引，加速数据的查找，而叶子节点是一个有序的链表，每次搜索都会到达叶子节点才会结束，插入新数据可能会引起节点的分裂。 * 20世纪80年代，yahoo……，20世纪90年代，google……，21世纪，facebook……，2010年之后，微博……随着网民参与互联网产品和应用的程度越来越深，互联网将更加智能，互联网的数据量也将呈爆炸式增长。大交易数据：来自电商的数据，包括B2B、B2C、C2C、团购等大交互数据：来自社交网络的数据，SNS、微博等两类数据的有