- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于异构集群环境下Hadoop作业调度优化的研究
基于异构集群环境下 Hadoop 作业调度优化的研究Research on the Optimization of Hadoop Job Scheduling in Heterogeneous Custer Environment潘 丹 甘 宏Pan Dan Gan Hong(广州城建职业学院, 广东 广州 510925)(Guangzhou City Construction College, Guangdong Guangzhou 510925)摘 要:随着计算机技术的发展与信息化的普及,大规模数据处理已经成为计算机产业界的焦点问题 和 学术界的研究热点。 Hadoop 是云计算的分布式开源的实现平台,在大规模数据处理方面有着高容量、低成本 等优势,也是一个运行在大型集群之上的并行处理系统。 Hadoop 云平台上的调度算法是对用户作业进行资 源分配和调度执行的程序,它的选择合适与否直接关系到用户作业的执行效率。 因此,对Hadoop 上作业调度 算法的研究和改进优化就显得极为重要。 本文通过实验验证作业重调度具有更好的响应时间和吞吐量,具有 良好的负载均衡,并且大大提高了 Hadoop 系统在异构平台上的性能。关键词:异构集群环境;Hadoop;作业重调度;优化算法中图分类号: TP302;TP393文献标识码:A文章编号:1671-4792(2015)09-0016-04Abstract:With the development of computer technology and the popularization of information technology, large-scale data processing has become the focus of the computer industry and academia. Hadoop is a distributed open source platform for cloud computing. It has advantages of high capacity and low cost in large scale data pro- cessing. It is also a parallel processing system running on a large cluster. Scheduling algorithm on the Hadoop cloud platform is a program that performs resource allocation and scheduling for user tasks, and it is directly relat- ed to the execution efficiency of users. So it is very important to study and improve the scheduling algorithm of Hadoop. In this paper, we show that the job scheduling has better response time and throughput, and has a good load balance, which greatly improves the performance of Hadoop system on heterogeneous platforms. Keywords:Heterogeneous Cluster Environment;Hadoop;Job Scheduling;Optimization Algorithm 0 引言近年来, 云计算技术在工业界和学术界共同推 动下取得了巨大的发展, 大量的云计算系统投入使 用。 其中,大多数的云计算系统采用 Hadoop 平台来 开发和调度程序。 MapReduce 是 Google 于 2004 年 提出的一种并行计算模型,其最根本的含义是:任务 的分解与结果的汇总。 该模型充分利用集群提供的 海量存储能力和并行计算能力, 把数据和计算任务 分派到数以千计的集群节点上执行[1]。参考 Google 的计算模型,Hadoop 是由 Apache开源组织开发的一个分布式的具有可靠性和可扩展 性的存储与并行计算平台, 其核心实现了用于分布 式存储的 HDFS (Hadoop Distributed FileSystem)文 件系统和用于分布式计算的 Map Reduce 计算框架[2]。 在 Hadoop Map Reduce 计算架构中, 作业被划分成 与数据块数目等同的 Map
文档评论(0)