一种改进Hadoop数据放置策略.pdfVIP

下载本文档

9
0
约2.58万字
约 8页
2016-03-11 发布于安徽
举报
版权申诉

一种改进Hadoop数据放置策略.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

华南理工大学学报(自然科学版) No．1 ofSouthChina of V01．40 第40卷第1期 Journal UniversityTechnology 2012年1月 Science January‘2012 (Natural Edition) 一种改进的Hadoop数据放置策略木林伟伟 10006) (华南理工大学计算机科学与工程学院，广东广州5 摘要：采用现有的Hadoop默认数据放置策略时，若本地数据副本失效，从远程结点上恢复数据需要耗费大量数据传输时间，且随机选取数据放置结点可能会影响数据放置的负载均衡．为此，文中提出一种改进的数据放置策略．该策略基于结点网络距离与数据负载计算每个结点的调度评价值，据此选择一个最佳的远程数据副本的放置结点，从而既能实现数据放置的负载均衡，又能实现良好的数据传输性能．在Hadoop平台上实现了所提出的数据副本放置改进策略，结果表明，与系统默认策略相比，文中提出的策略不仅可以改进数据放置的负载均衡，而且可以减少数据副本放置的时间．关键词：Hadoop；数据放置；负载均衡；策略中图分类号：TP393 随着互联网和分布式计算技术¨。21的发展，出现体系中的一个重要问题．由于集群由大量机器组成，了越来越多的数据密集型应用，这些应用常常需要存储结点的故障就不可避免．为了避免个别结点的涉及数TB(1012B)的数据，如何高效、可靠而又方便失效导致数据永久性的丢失．Hadoop将数据的多个地处理大量的数据成为当前一个重要研究方向．与副本存放在集群中的不同机器上，当有结点失效时，此同时，互联网凭借其开放性成为数据密集型应用其仍然可以读取数据．为此，应当将同一数据块的多的合适平台．MapReduce旧1正是一个适用于这类大个副本存放在相距较远的多个机器上，从而确保在规模数据集并行运算的编程模型，该模型将大的任整个机架都发生故障时数据的安全．但另一方面，由务分解成为众多的小任务，然后在一个大规模的集于MapReduce中的运算常常需要输入大量的数据，群上并行地完成．MapReduce结构简化了集群中多而大量数据的移动会显著影响运算的性能，所以数结点的并行编程，将任务分解为Map与Reduce两据的存放应当遵循本地性的原则，即数据应当距离个部分，使编程者可以不必关注多结点并行计算的运算结点较近，从而减少因数据移动带来的性能实现细节；MapReduce提供了一个易于实现且可靠损失．的并行编程平台．HadoopH。51是MapReduce分布式针对这一问题，当前的HDFS【10]在选择存放数编程模型和GFS[61数据存储方式的开源实现，如今据块的结点时采用的策略是机架感知策略Ho．该策 H