- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
结构化数据向非结构化数据演进,使得未来IT投资重点不再是建系统为核心,而是围绕大数据为核心; 海量数据可以在各个部门创造重大的财物价值,未来投资倾斜。 商业价值 用户行为分析 用户行为分析 用户行为分析 用户行为分析 用户行为分析 用户行为分析 用户行为分析 用户行为分析 * 数据增长速度与it界的摩尔定律很类似,社交网络、物联网、电子商务,35ZB 的数据全部刻录到容量为9GB 的光盘上,其叠加的高度将达到233 万公里,相当于在地球与月球之间往返三次,全球在2010 年正式进入ZB 时代,预计到2020 年,全球将总共拥有35ZB 的数据量。我们正处于大数据时代的边缘。 85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据,如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求 * 85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据 * 如果你有一杯水,你可以把他喝掉,如果你有一桶水,你可以用来洗衣做饭, 如果你有一房子水,那你一定是遭水灾了。 云计算的核心是业务模式,本质是数据处理技术。数据是资产,云为数据资产提供了保管、访问的场所和渠道。如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。大数据技术将是IT 领域新一代的技术与架 构,他将帮助人们从大体量,高复杂的数据中提取价值。 * 近几年,云计算的概念受到了学术界、商界,甚至政府的热捧,除了亚马逊、微软、IBM、ORACLE、谷歌这些行业巨头之外,很多大公司也纷纷在云计算这个领域上取得了成绩,一时间云计算无处不在。此前,IT沙龙班组也就云计算这个主题进行过两次深入介绍,在这里就不再赘述了。 随着云计算的概念深入人心,另外一个名词也渐渐走入人们的视野:大数据!进入IT时代以来,我们积累了海量的数据,这些数据不断急速增加,给我们的时代带来两个方面的巨变:一方面,在过去没有数据积累的时代无法实现的应用现在终于可以实现;另一方面,从数据匮乏时代到数据泛滥时代的转变,给数据的应用带来新的挑战与困扰,简单的通过搜索引擎获取数据的方式已经不能满足我们千变万化、层出不穷的应用需求,如何从海量数据中高效的获取数据,有效的深加工并最终得到感兴趣的数据变的异常困难。 我认为,云计算与大数据是一对相辅相成的概念,而他们的关系则是静与动的关系:云计算强调的是计算和存储,这是动的概念;而数据是计算的对象,是静的概念。 * Brewer在加大伯克利分校获得了计算机科学学士学位,随后在麻省理工学院获得计算机科学硕士和博士学位。32岁时,他拿到了伯克利的终身教授职位。2007年,Brewer教授指出:CAP永远不可能同时满足,提高其中任意两者的同时,必然要牺牲第三者,后来由麻省理工学院的两位科学家证明。这个定理告诉大家,不要再浪费时间去研究如何兼顾了,因为这根本就是不可能的,只能根据具体应用,来决定如何在三者之间进行取舍。CAP理论为很多巨型的数据中心,尤其是现在很多的SNS网站提供了有力的理论指导,比如说Google的BigTable系统就是一个牺牲了A的典型例子。就在提出CAP理论的同一年,Brewer当选美国国家工程院院士,并于次年当选ACM Fellow。 * Yammer是一个企业社会化网络服务,提供通信平台,还包括投票、聊天、活动、链接、主题、问答、想法等功能。目前已经被微软收购。Cloudera是一家专业从事基于Apache Hadoop的数据管理软件销售和服务的公司。以这两家公司为代表,以及很多分布式领域的研究人员都认为,分区容错性是不能牺牲的。对大型网站,可用性与分区容忍性优先级要高于数据一致性,一般会尽量朝着A、P的方向设计,然后通过其他手段保证对于一致性的商务需求。 * Key Value是分布式存储的一种重要方式。查询速度快、存放数据量大、支持高并,但不能进行复杂的条件查询。如果辅以实时搜索引擎进行复杂条件检索、全文检索,可替代并发性能较低的关系型数据库,节省几十倍服务器数量。它的数据结构是一个B+树,也就是多路搜索树, 数据存储在叶子节点上,非叶子节点作为叶子节点的索引,加速数据的查找,而叶子节点是一个有序的链表,每次搜索都会到达叶子节点才会结束,插入新数据可能会引起节点的分裂。 * 20世纪80年代,yahoo……,20世纪90年代,google……,21世纪,facebook……,2010年之后,微博……随着网民参与互联网产品和应用的程度越来越深,互联网将更加智能,互联网的数据量也将呈爆炸式增长。 大交易数据:来自电商的数据,包括B2B、B2C、C2C、团购等 大交互数据:来自社交网络的数据,SNS、微博等 两类数据的有
文档评论(0)