武汉理工大学云计算重点(刘鹏第三版).docxVIP

武汉理工大学云计算重点(刘鹏第三版).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
武汉理工大学云计算重点(刘鹏第三版)

一、大数据与云计算1.云计算是并行计算、分布式计算和网格计算的发展。2云计算服务类型:将基础设施作为服务laas、将平台作为服务paas 、将软件作为服务saas 。3.云计算体系结构分为四层:物理资源层、资源池层,管理中间件层,SOA(service-oriented-architecture,面向服务的体系结构)构建层。4.云计算有更低的硬件和网络成本、更低的管理成本和电力成本,也有更高的资源利用率。5.云计算特点:超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务、极其廉价二、Google云计算原理和应用Google云计算技术包括:Google文件系统GFS、分布式计算编程模型MapReduce 、分布式锁Chubby、分布式结构化数据表BigTable 、分布式存储系统Megastore 、分布式监控系统Dapper 、海量的交互式分析工具D remel ,以及内存大数据分析系统powerdrill。2.GFS是一个大型的分布式文件系统Google File System3.GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个chunk,每一个chunk都有一个索引号。4.GFS特点:采用中心服务器模式、不缓存数据、在用户态下实现、只提供专用接口5.master容错,Master上保存了GFS文件系统的三种元数据Name Space,文件系统目录结构、Chunk与文件名的映射表、Chunk副本的位置信息(默认有三个副本)6.chunk server容错:GFS中的每一个文件被划分成多个Chunk,Chunk的默认大小是64MB,每个Chunk又划分为若干Block(64KB),每个Block对应一个32bit的校验和,保证数据正确。7.系统管理技术:大规模集群安装技术、故障检测技术、节点动态加入技术节能技术8.mapreduce模型:Map函数--对一部分原始数据进行指定的操作。每个Map操作都针对不同的原始数据,因此Map与Map之间是互相独立的,这使得它们可以充分并行化。reduce函数--操作—对每个Map所产生的一部分中间结果进行合并操作,每个Reduce所处理的Map中间结果是互不交叉的,reduce也可以在并行环境下执行。9.MapReduce函数把输入文件分成M块,每块大概16M~64MB。10.Chubby几个重要的特性:Chubby不支持内部文件的移动;不记录文件的最后访问时间;另外在Chubby中并没有符号连接(Symbolic Link,又叫软连接,类似于Windows系统中的快捷方式)和硬连接(Hard Link,类似于别名)的概念11.用户打开某个节点的同时会获取一个类似于UNIX中文件描述符(File Descriptor)的句柄,这个句柄由以下三个部分组成:校验数位:防止其他用户创建或猜测这个句柄、序号:确定句柄由当前还是以前的主服务器创建、模式信息:用于新的主服务器重新创建一个旧句柄。补充:Bigtable是Google开发的基于GFS和Chubby 的分布式存储系统。12.分布式结构化数据表Bigtable 设计动机与目标:需要存储的数据种类繁多、海量的服务请求、商用数据库无法满足Google的需求。13.Bigtable选用了Google自己开发的分布式锁服务Chubby14.Google应用程序引擎:Google App Engine为每个应用程序提供了一个安全运行环境,该沙盒可以保证每个应用程序能够安全的隔离运行。第五章、hadoop2.01.2002年开源组织Apache成立开源搜索引擎项目Nutch,2004年 Google三大论文, Apache实现了Nutch版的NDFS和MapReduce 2006年 NDFS和MapReduce移出Nutch,形成独立项目,称为Hadoop。2.hadoop分布式文件系统HDFS可以部署在廉价的硬件上,能够高容错、可靠的存储海量数据(可以达到TB甚至PB级)。它还可以和Yarn 中的mapreduce编程模型很好的结合,为应用程序提供高吞吐量的数据访问,适用于大数据应用程序。3.HDFS架构:4.HDFS内部特性:冗余备份、副本存放副本选择HDFS会尽量使用离程序最近的副本来满足用户请求,这样可以减少总带宽消耗和读延时。如果在读取程序的同一个机架上有一个副本,那么就使用这个副本;如果HDFS机群跨了多个数据中心,那么读取程序将优先考虑本地数据中心的副本。HDFS的架构支持数据均衡策略。如果某个DataNode的剩余磁盘空间下降到一定程度,按照均衡策略,系统会自动把数据从这个DataNode移动到其他节点。当对某个文件有很高需求时,系统可能会启动一个计划创建该文件的新副本,并重新平衡集群中的其他数据。4心跳检测5数据完

文档评论(0)

haihang2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档