关于HDFS的分布式文件系统数据冗余技术研究.pdf

关于HDFS的分布式文件系统数据冗余技术研究.pdf

摘要 随着信息技术的发展,存储系统占有举足轻重的地位。在数据爆炸性增长的 今天,本地的存储很难满足不断增长的海量存储的需要,而且个人移动计算和企 业级计算对底层的存储系统也提出了更高的要求,人们越来越多地使用分布式文 件系统,它可以带来更高的存储能力、可靠性、安全性和移动性。 本文主要研究了分布式文件系统的数据冗余技术。传统的分布式系统大多采 用独立磁盘冗余阵列(RAID)和复制技术进行数据的冗余,要达到一定的可靠性 对存储空间的要求较高。后来又出现了编码方法对数据进行编码存放,这在提高 了可靠性的同时又带来了数据读取和写入时性能的较大损失。为了更好地平衡数 据可靠性和读取性能,本文提出了综合采用复制和网络编码技术对数据存储的方 Distributed File 案。在开源的HDFS(Hadoop System)项目基础上,给出了文件分块 编解码、编码块放置策略、文件读取和写入的完整流程和方案,之后又研究了如 何进行负载均衡以及怎样在大规模廉价低可靠机器组成的集群上处理机器的频繁 退出和加入的问题。借助于这种数据冗余技术,可以在相同的冗余度上提高数据 的可靠性,同时又尽可能地降低编码对读取性能的负面影响。 本文首先介绍了分布式系统的研究现状,研究了主流的架构技术,在介绍了 各种数据冗余技术的基础上提出了复制和网络编码结合的方案,在HDFS架构下 描述了具体的设计。最后对可靠性进行了理论分析和实际仿真,证明了该设计可 以达到预期的效果。 关键词:分布式文件系统HDFS数据冗余技术 数据可靠性 Abstract is avitalrole、析ththe of Storagesystemplaying development becauseofthe in local isdifficult data,the technology.Todayexplosivegrowth storage to formass mobile and meettheneed storage.Besidesthat,personalcomputing havea tothe enterprise higherrequirementunderlyingstoragesystem.So, computing are adistributed forits using storagesystem higherstoragecapacity, peopleincreasingly and reliability,securitymobility. Data arestudiedinthis certain redundancy paper.Reachingreliability technologies a becausemosttraditionaldistributedexecutedata requireshighstorage systems redundantof redundancyusing array independentdisk(RAID)andreplication

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档