云计算课件17.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云计算课件17

主要内容Hadoop项目简介HDFS体系结构HDFS关键运行机制Hadoop VS.Google(分布式文件系统)Hadoop APIHadoop环境搭建Hadoop项目简介Apache的解决方案GFS--HDFS MapReduce--HadoopBigTable--HBase Google云计算MapReduceBigTableChubbyGFSHadoop项目简介HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。HDFS体系结构 NameNode?MasterDataNode?ChunkseverHDFS关键运行机制--保障可靠性的措施一个名字节点和多个数据节点数据复制(冗余机制) --存放的位置(机架感知策略)故障检测--数据节点 心跳包(检测是否宕机) 块报告(安全模式下检测) 数据完整性检测(校验和比较)--名字节点(日志文件,镜像文件)空间回收机制 HDFS关键运行机制--写文件流程客户端缓存流水线复制并发写控制流程:1.客户端把数据缓存到本地临时文件夹2.临时文件夹数据超过64M,客户端联系NameNode, NameNode分配DataNode,DataNode依照客户端的位置被排列成一个有着最近物理距离和最小的序列3.与序列的第一个数据服务器建立Socket连接,发送请求头,然后等待回应,依次下传,客户端得到回包,流水线建立成功,4. 正式发送数据,以4K为大小传送HDFS关键运行机制--读文件流程客户端联系NameNode,得到所有数据块信息,以及数据块对应的所有数据服务器的位置信息尝试从某个数据块对应的一组数据服务器中选出一个,进行连接(选取算法未加入相对位置的考虑)数据被一个包一个包发送回客户端,等到整个数据块的数据都被读取完了,就会断开此链接,尝试连接下一个数据块对应的数据服务器,整个流程,依次如此反复,直到所有想读的都读取完了为止Hadoop VS. GoogleHadoop云计算应用Google云计算应用HBaseMapReduceBigTableMapReduceChubbyHDFSGFS技术架构的比较数据结构化管理组件:Hbase→BigTable并行计算模型:MapReduce→MapReduce分布式文件系统:HDFS→GFSHadoop缺少分布式锁服务ChubbyHadoop VS. GoogleHDFS与GFS比较中心服务器模式的差异GFS:多台物理服务器,选择一台对外服务,损坏时可选择另外一台提供服务HDFS:单一中心服务器模式,存在单点故障原因:Hadoop缺少分布式锁服务Hadoop VS. GoogleHDFS与GFS比较子服务器管理模式差异GFS:Chunk Server在Chubby中获取独占锁表示其生存状态,Master通过轮询这些独占锁获知Chunk Server的生存状态HDFS:DataNode通过心跳的方式告知NameNode其生存状态GFS中,Master损坏时,替补服务器可以快速获知Chunk Server的状态HDFS中,NameNode损坏后,NameNode恢复时需要花费一段时间获知DataNode的状态在添加数据存储节点时,GFS的伸缩性较HDFS要好原因:Hadoop缺乏分布式锁服务Hadoop VS. GoogleHDFS与GFS比较HDFS具备安全模式获知数据块副本状态,若副本不足,则拷贝副本至安全数目(如3个)GFS不具备安全模式副本损坏处理:API读取副本失败时,Master负责发起拷贝任务Hadoop VS. GoogleHDFS与GFS比较HDFS具备空间回收机制文件删除时,仅删除目录结构实际数据的删除在等待一段时间后实施优点:便于恢复文件HDFS APIHadoop API被分成(divide into)如下几种主要的包(package):?org.apache.hadoop.conf?定义了系统参数的配置文件处理API。?org.apache.hadoop.fs??定义了抽象的文件系统API。?org.apache.hadoop.Hdfs??HDFS,Hadoop的分布式文件系统实现。?org.apache.hadoop.io?定义了通用的I/O API,用于针对网络,数据库,文件等数据对象做读写操作。 org.apache.hadoop.ipc??用于网络服务端和客户端的工具,封装了网络异步I/O的基础模块。?org.apache.hadoop.mapreduce?Hadoop分布式计算系统(MapReduce)模块的实现,包括任务的分发

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档