异构存储HDFS副本选择策略研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
异构存储HDFS副本选择策略研究

异构存储HDFS副本选择策略研究   摘 要:大数据时代的到来,给海量数据的存储与管理带来了更为严峻的挑战。HDFS能够有效缓解飞速增长的海量数据存储需求。最初HDFS被设计用于同构的硬件环境,然而随着集群硬件的迭代更新,存储介质的硬件异构特性愈发明显。为了充分利用高性能存储介质,提升HDFS的数据访问性能,设计了一种基于层次分析法的异构存储的HDFS副本选择策略,并在扩展的CloudSim仿真系统中实现了该策略。实验结果表明,该策略在HDFS数据访问性能方面优于HDFS默认副本选择策略。   关键词:大数据;异构存储;HDFS;副本选择策略;CloudSim   DOIDOI:10.11907/rjdk.171284   中图分类号:TP301   文献标识码:A 文章编号:1672-7800(2017)007-0011-03   0 引言   云存储技术已经受到了商业与学术领域的广泛关注,目前已成为大数据时代的研究热点。随着大数据时代的到来,大数据的存储需求成倍增长,分布式存储技术是大数据时代应对存储容量的压力与成本等诸多挑战下的极为重要的解决方案。HDFS是大数据领域最受关注的具备高度容错性与高吞吐量的海量数据存储的开源框架[1]。   近年来,计算机硬件技术的飞速发展,使得固态硬盘的性能不断提升,价格快速下降。由于固态硬盘具有较高的I/O性能,目前已经被应用于HDFS中以提升海量数据的存储性能。但是固态硬盘的使用成本仍旧高于机械硬盘,综合考虑大规模HDFS的基础设施成本与存储的性能需求,将固态硬盘与机械硬盘混合应用是一种有效的解决手段。   副本选择策略是HDFS数据访问的基础,副本选择策略的优劣将直接影响HDFS集群的数据访问性能。为了充分利用异构的存储介质,同时避免集群负载不均所带来的瓶颈,本文充分考虑副本所在存储介质与集群中节点的负载差异,构建了数学模型,提出了一种异构存储下的HDFS副本读取选择(Heterogeneous Storage Replica Selection,HSRS)策略。   1 HDFS的异构存储   最初,Hadoop默认所有存储介质都是同构的,但是随着Hadoop集群硬件的迭代更新,使得在集群中出现了异构的存储介质。不同的存储介质具有不同的I/O性能。机械硬盘作为目前主流的存储介质,尽管价格低、容量大,但是由于其机械构造、磁盘寻道时间与定位时间难以被消除,使得机械硬盘在读写性能上难以有进一步提升。随着多核处理器的飞速发展,机械硬盘的访问性能与处理器和内存之间的差距越来越大。机械硬盘的I/O性能已经成为分布式存储系统访问性能的主要瓶颈之一。固态硬盘无需寻道,读写延迟远远小于机械硬盘,并且提供了良好的随机访问性能,并且比机械硬盘的能耗更低[2]。   为了充分利用异构存储介质的性能特点,Hadoop于2.6.0版本中添加了对异构存储的支持,同时引入了存储策略的新概念,在数据写入至HDFS时可以为数据指定不同的存储策略,使得数据可以写入不同类型的存储介质中。然而在副本选择策略方面仍旧采用就近副本选择策略。   在此之前,许多学者研究如何在HDFS中将机械硬盘与固态硬盘混合使用以充分发挥不同存储介质的性能。Islam等[3-5]提出将固态硬盘作为机械硬盘的缓存层的HDFS架构; Krish等[6-7]提出了固态硬盘与机械硬盘混合使用的HDFS系统架构,并提出了数据放置与查询策略,有效提升了HDFS的系统访问性能。Chen等[8]在操作系统内核层面进行了异构存储的HDFS数据放置策略设计与实现。目前,异构混合存储的HDFS主要集中于架构设计,在副本选择策略方面仍具备较大的研究空间。   2 异构存储的HDFS副本选择策略   2.1 HDFS读过程分析   为了避免分布式文件系统中存储节点失效带来的数据丢失情况,HDFS采用数据多副本分块对数据进行冗余存储。这在保证数据安全性的同时也提升了数据的访问性能,多客户端可并发地从不同数据节点中读取数据。HDFS读过程如图 1所示。   尽管HDFS支持了异构存储类型并引入了存储策略,然而在进行副本读取节点选择时,HDFS默认的副本读取选择策略仍旧为副本就近读取选择策略。以最小化访问延迟与集群中全局网络带宽为目标,只考虑了数据副本所在数据节点的网络拓扑距离,选择与请求节点网络拓扑距离最小的副本进行访问,选择可用节点而不是最佳访问节点。   在异构存储的HDFS中,在相同负载场景下,?木哂薪细叻梦市阅艿拇娲⒔橹识寥∈?据能够大幅度地提升副本的访问速率。集群中的各个数据节点存储了不同的数据副本,不同数据副本的访问呈现动态性,数据节点的负载情况也会影响数据访问性能。如果从负载过重的节点中读取数据块会加重该数据节点的任务量,

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档