一种改进Hadoop数据放置策略.pdfVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
华南理工大学学报(自然科学版) No.1 ofSouthChina of V01.40 第40卷第1期 Journal UniversityTechnology 2012年1月 Science January‘2012 (Natural Edition) 一种改进的Hadoop数据放置策略木 林伟伟 10006) (华南理工大学计算机科学与工程学院,广东广州5 摘要:采用现有的Hadoop默认数据放置策略时,若本地数据副本失效,从远程结点上 恢复数据需要耗费大量数据传输时间,且随机选取数据放置结点可能会影响数据放置的 负载均衡.为此,文中提出一种改进的数据放置策略.该策略基于结点网络距离与数据负 载计算每个结点的调度评价值,据此选择一个最佳的远程数据副本的放置结点,从而既能 实现数据放置的负载均衡,又能实现良好的数据传输性能.在Hadoop平台上实现了所提 出的数据副本放置改进策略,结果表明,与系统默认策略相比,文中提出的策略不仅可以 改进数据放置的负载均衡,而且可以减少数据副本放置的时间. 关键词:Hadoop;数据放置;负载均衡;策略 中图分类号:TP393 随着互联网和分布式计算技术¨。21的发展,出现 体系中的一个重要问题.由于集群由大量机器组成, 了越来越多的数据密集型应用,这些应用常常需要 存储结点的故障就不可避免.为了避免个别结点的 涉及数TB(1012B)的数据,如何高效、可靠而又方便 失效导致数据永久性的丢失.Hadoop将数据的多个 地处理大量的数据成为当前一个重要研究方向.与 副本存放在集群中的不同机器上,当有结点失效时, 此同时,互联网凭借其开放性成为数据密集型应用 其仍然可以读取数据.为此,应当将同一数据块的多 的合适平台.MapReduce旧1正是一个适用于这类大 个副本存放在相距较远的多个机器上,从而确保在 规模数据集并行运算的编程模型,该模型将大的任 整个机架都发生故障时数据的安全.但另一方面,由 务分解成为众多的小任务,然后在一个大规模的集 于MapReduce中的运算常常需要输入大量的数据, 群上并行地完成.MapReduce结构简化了集群中多 而大量数据的移动会显著影响运算的性能,所以数 结点的并行编程,将任务分解为Map与Reduce两 据的存放应当遵循本地性的原则,即数据应当距离 个部分,使编程者可以不必关注多结点并行计算的 运算结点较近,从而减少因数据移动带来的性能 实现细节;MapReduce提供了一个易于实现且可靠 损失. 的并行编程平台.HadoopH。51是MapReduce分布式 针对这一问题,当前的HDFS【10]在选择存放数 编程模型和GFS[61数据存储方式的开源实现,如今 据块的结点时采用的策略是机架感知策略Ho.该策 H

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档