云计算amp;大数据关键技术与应用62.pptxVIP

下载本文档

1
0
约5.11千字
约 63页
2021-05-20 发布于河北
举报
版权申诉

云计算amp;大数据关键技术与应用62.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

云计算大数据关键技术与应用;目录;云计算运营两大阵营;云计算产品的生态系统;大数据分析面临的主要技术问题;云计算技术用于处理大数据;阿里大数据状况;阿里技术架构总览;腾讯大数据状况;腾讯技术架构;百度大数据状况;百度技术架构;;;目录;虚拟化技术;计算虚拟化技术;网络虚拟化：软件定义网络SDN（Software Defined Network）;网络虚拟化-VxLan实现虚拟机的跨网络迁移;云计算基础设施管理技术;OpenStack简介;OpenStack 社区;目录;Google分布式处理架构;分布式文件系统-Google文件系统(GFS);分布式文???系统- HDFS;分布式文件系统- GlusterFS;分布式文件系统- Lustre;分布式文件系统-写入性能比较;分布式文件系统-读取性能比较;分布式计算模型-概述;分布式计算模型- MapReduce;分布式计算模型- MapReduce;分布式计算模型- MapReduce;单词记数问题(Word Count)（Hadoop自带例子）给定一个巨大的文本（如1TB），如何计算单词出现的数目？;Step 1: 自动对文本进行分割;Step 2:在分割之后的每一对key,value进行用户定义的Map进行处理，再生成新的key,value对;Step 3:对输出的结果集归拢、排序(系统自动完成）;Step 4:通过Reduce操作生成最后结果 ;目录;;存储原理;CAP理论;NoSQL的两个核心模型;NoSQL技术分类;简介 Bigtable是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据，包括Web索引、Google Earth、Google Finance等。数据模型 Bigtable是一个稀疏的、分布式的、持久化存储的多维度排序Map。Map的索引是行关键字、列关键字以及时间戳；Map中的每个value都是一个未经解析的byte数组 ;简介 Hadoop Database，HBase是Google Bigtable的开源实现，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。数据模型类似Google Bigtable利用GFS作为其文件存储系统，HBase利用Hadoop HDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。 ;简介：一个开源的使用C语言编写、支持网络、可基于内存也可持久化的key-value存储系统，仅有一万行代码。从2010年3月15日起，Redis的开发工作由VMware主持。;最初由Facebook开发，用于储存收件箱等简单格式数据集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身 Facebook于2008将 Cassandra 开源，此后，由于Cassandra良好的可扩放性，被Digg、Twitter等知名Web 2.0网站所采纳，成为了一种流行的分布式结构化数据存储方案;介于关系数据库和非关系数据库之间，是非关系数据库当中功能最丰富，最像关系数据库的支持的数据结构非常松散，是类似json的bjson格式，可以存储比较复杂的数据类型支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。;Neo4j提供了大规模可扩展性，在一台机器上可以处理数十亿节点/关系/属性的图，可以扩展到多台机器并行运行。相对于关系数据库来说，图数据库善于处理大量复杂、互连接、低结构化的数据，这些数据变化迅速，需要频繁的查询——在关系数据库中，这些查询会导致大量的表连接，因此会产生性能上的问题。 Neo4j重点解决了拥有大量连接的传统RDBMS在查询时出现的性能衰退问题。通过围绕图进行数据建模，Neo4j会以相同的速度遍历节点与边，其遍历速度与构成图的数据量没有任何关系。 Neo4j还提供了非常快的图算法、推荐系统和OLAP风格的分析，这在目前的RDBMS系统中都没有实现。;SQL——HIVE;Oracle的大数据解决方案;Facebook的处理模式;目录;应用实例1：互联网行为分析平台;应用实例2：海量小图片管理;快速迭代的开发模式;分布式系统测试;资料参考-阿里技术嘉年华;资料参