浅析基于HDFS分布式Namenode模型.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析基于HDFS分布式Namenode模型

浅析基于HDFS分布式Namenode模型   摘要:大量的信息以数据的形式进行存储和处理,如果能够以最佳的方式存储、访问和分析所有产生的数据,就可以创造出价值。面对如此海量的数据,Hadoop文件系统(HDFS,Hadoop Distributed File System)展现出了它的优越性。但是基于单一NameNode节点的HDFS文件系统表现出了单点失效、单点瓶颈和扩展性差几个问题。为了解决单一NameNode成为整个集群性能瓶颈的问题,本文提出一种基于HDFS的分布式NameNode模型,并对分布式NameNode结构的总体设计进行介绍。   关键词:HDFS;单一NameNode;分布式NameNode   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)06-0239-03   信息的数据化使得每天都有大量的数据产生,据统计现在人们创造与复制的数据量每两年就会增加一倍。这种增长趋势仍在加速,接下来几年中,数据始终保持每年50%的增长速度。这些数据的数量之大种类之多,已经无法用传统的数据处理工具加以分析,这也促进了新的数据处理技术应运而生。以云计算[1]为基础的信息数据挖掘技术,可低成本、高效率地将这些数量巨大、结构多样的终端数据存储下来,实时地进行分析和计算。   大数据[2]和云计算两个概念相辅相成,大数据中蕴含了丰富的信息和潜在价值,而云计算的出现,帮助我们更好的对大数据中的价值进行分析,获得新的认知、创造新的价值。Hadoop作为基础云计算平台已经得到了广泛的应用。Hadoop[3]的两大核心模块是HDFS[4]和MapReduce[5],其中HDFS是Hadoop体系结构中的底层支持。   1 HDFS的基础构架[6]   Hadoop的分布式文件系统(HDFS,Hadoop Distributed File System)作为Hadoop云平台的核心组件,其主要负责海量数据的存储工作。HDFS具有高容错性,可以部署在廉价的机器之上,它允许自定义数据块备份的数目,并且将同一数据块的备份存放在不同机架中,以提高文件系统的可靠性。   HDFS文件系统采用了主/从(master/slave)结构,在集群中NameNode作为主节点,多个DataNode作为从节点。客户端(client)发起的读写请求会直接传送给NameNode,由NameNode对数据文件进行重命名、打开、删除等操作。NameNode还要实时的与DataNode进行数据交互。此外NameNode管理并维护上传数据到HDFS中时产生的EditLog日志文件和FsImage文件系统映射表等元数据信息。大数据文件传入文件系统后,首先进行预处理,被分割成固定大小的数据块(默认为64M),然后这些数据块存放在各个DataNode中。HDFS的体系结构如图1所示。   1.1 NameNode   NameNode主要有四大功能。首先,它??元数据(连线1)和数据块进行管理。其次, NameNode还可以将存储在内存中的元数据持久化到硬盘中去,以提高安全性。再次,NameNode负责处理客户端和DataNode的所提出的请求。最后,DataNode要向NameNode发送的心跳信息,NameNode通过心态信息对DataNode进行管理。   1.2 Secondary NameNode   Secondary NameNode并不是NameNode的备份,而是按照一定时间间隔保持文件系统元数据的快照。Secondary NameNode与NameNode保持通信(连线2),定时的到NameNode上获取edit logs,并更新到自己的fsimage上,一旦它有了新的fsimage文件,它就会将其拷贝到NameNode中。待NameNode重启时会就会使用这个新的fsimage文件,从而减少其重启的时间。   1.3 DataNode   DataNode最主要的工作就是存储数据块。其次DataNode会执行数据的流水线复制任务,数据存入文件系统内部后,默认被分成64M大的数据块,数据块以冗余存储的形式备份在多个DataNode中(连线3),默认备份数为3。最后DataNode还会定期的向NameNode报告其存储的数据块列表(连线4)和发送心跳信息。   1.4 Client   Client作为HDSF的使用者,它可以对系统中的文件进行读写操作。Client不能直接与DataNode通信,需要先从NameNode中获取文件对应数据块的位置信息(连线5),通过位置信息找到相应的DataNode并进行数据的读写操作(连线6,7)。   2 基于单一NameNode的分布式文件系统   

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档