高可用性的hdfs——.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高可用性的hdfs——

前 言 Hadoop是目前主流的开源云计算系统,它实现了一个高可扩展的分布式文件系统——HDFS(Hadoop Distributed File System),HDFS作为Hadoop底层基础设施,为云计算提供高可靠、高性能的存储服务。HDFS在很大程度上借鉴了Google GFS文件系统的设计思想,具有高度容错、支持大数据集等诸多特性。这些特性曾让我们欢欣鼓舞,一度以为HDFS是一个可以解决数据密集型应用的海量数据存储难题的完美方案。随着研究的深入,我们在不断叹服HDFS设计构思巧妙的同时,也深深地认识到仅有以上的特性还不足以构建一个实用的分布式文件系统,还需要一些其他特性进行支撑,高可用性则是其中最为关键的一点。 高可用性是指系统正常服务时间所占的百分比,它是衡量系统对外正常服务能力的重要指标。对于HDFS来说,每一份数据可以有多个副本,因此文件数据的可靠性可以由副本来解决。然而,对于元数据管理来说,只有一个节点NameNode,它的好坏直接决定了HDFS能否正常服务,因此NameNode的高可用性决定了整个HDFS系统的高可用性。不同应用对HDFS高可用性有不同要求,目前Hadoop自身包括其他一些开源组织提供了一些相应的高可用性机制以满足不同的需要,如Backup Node方案以及AvatarNode方案等。 根据我们的实践经验,在使用以上方案解决实际问题时,需要具备以下几点基础: 首先是对NameNode元数据机制有较深的理解和把握; 其次要对各种解决方案的运行机制及使用方法有个全面掌握; 再次就是要有较强的实践操作经验。 然而,就现实情况而言,要在以上任何一点取得一点进展都需要付出相当大的努力,回顾我们的团队在接触HDFS的高可用性之初,由于资料和经验的匮乏,每掌握一个知识点,都需经历资料查找、邮件列表搜索、邮件请教、代码查看、实验验证等多个环节,其间的付出可想而知,正是基于这点,我们也深切地感觉有必要将我们前期的经验和心得与大家分享,姑且也算做是我们团队对于开源软件事业的一点小小的回馈吧。 本书内容 本书一共8章,分为4个部分。 其中第部分为第1章,主要介绍当前HDFS主流的HA方案以及相关概念,使读者能够有一个宏观上的认识,同时通过方案的比较,遴选出种具有代表性的HA方案。 第部分为第章,围绕HDFS HA的重点关注对象元数据,对内存元数据结构、磁盘元数据文件、文件系统格式化场景以及元数据在HA中的应用场景进行了深入剖析。 第部一共章(),主要介绍3种经典的HA解决方案:Hadoop元数据备份方案、BackupNode方案以及AvatarNode方案,从代码入手,分别从运行机制、使用方法等方面进行说明,每种方案都有详细的使用说明并配以视频,便于读者掌握。 第4部分为第8章,介绍目前最新HA解决方案Cloudrea HA NameNode。 适合读者 如果您是一位Hadoop集群管理维护人员,请阅读本书,它将向您展示当前主流的HDFS HA解决方案,通过文字说明和视频展示这些方案的实现机制和操作细节,使您能够在最短的时间内消化和吸收这些技术,您可以根据自己的需要选择和部署实施最合适的HA方案。 如果您是一位Hadoop应用开发者,请阅读本书,您将会在此找到如何结合HDFS的HA,编写出更为健壮的应用程序。 如果您是一位分布式文件系统研发人员,请阅读本书,它将向您深入剖析HDFS这一最有影响力的开源云计算分布式存储系统的各种HA方案及其实现机制。 如果您是一位云计算技术的爱好者,请阅读本书,本书会从零开始,一步一步地带您掌握云计算相关技术,并加深概念的理解,为您日后深入接触云计算技术打下基础。 本书由文艾和王磊共同编著而成。文艾负责总体设计、内容把握以及写作组织,独立完成第8章,并与王磊共同完成第以及实验的视频设计和制作。 感谢中国电子学会云计算专家委员会专家刘鹏教授的大力支持;感谢我的家人,你们是我奋斗前进的最大动力; 最后,希望大家从书中找到需要的东西。 ,错误在所难免,敬请各位批评指正。请发送邮件到hdfsha@126.com。 第1章 HDFS HA及解决方案 HDFS[](Hadoop Distributed File System)即Hadoop分布式文件系统,它为Hadoop这个分布式计算框架提供高性能、高可靠、高可扩展的存储服务。 1.1 HDFS系统架构 HDFS的系统架构如图1.1所示,它是一个典型的主/从架构,包括一个NameNode节点(主节点)和多个DataNode节点(从节点),并提供应用程序访问接口。NameNode是整个文件系统的管理节点,它负责文件系统名字空间(Namespace)的管理与维护,同时负责客户端文件操作的控制以及具体存储任务的管理与分配;DataNode

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档