（毕业论文）Hadoop云计算平台作业调度算法的研究.docVIP

下载本文档

4
0
约4.07万字
约 46页
2016-12-23 发布于浙江
举报
版权申诉

（毕业论文）Hadoop云计算平台作业调度算法的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要数据的指数级增长向世界互联网巨头Google、Yahoo、Amazon和Microsoft等这些处于市场领导地位的公司提出了挑战，它们需要分析TB级和PB级的海量数据以发现有价值的信息推荐给那些有潜在需求的人群。现有的工具正变得无力处理如此大的数据集，Google率先推出了MapReduce编程模型，这是Google公司为了在廉价的计算机集群上来存储并处理PB级的数据而提出的一种解决方案。这一解决方案引起了学术界和工业界的广泛关注，因为许多企业同样面临数据膨胀的挑战，一些开源软件诸如Hadoop等给这些企业带来了希望，使它们能够在廉价的计算机集群上存储海量数据，并能够运用MapReduce的思想并行处理这些海量数据，为它们节约了大量的计算以及存储成本。由于现有的Hadoop集群中包含各种类型的作业，有些作业对完成时间没有要求，而某些作业的完成时间过长时有可能给企业带来损失，为此本文着重研究了集群中各种作业的调度执行流程，分析了MapReduce现有的调度机制，本文针对目前调度算法不能支持对时间紧迫性要求较高的作业的需求，对作业调度算法进行了相应的改进，设计并编写了一个双队列的作业调度器，并研究了集群中慢节点的判定方法、推测执行任务的选定方法，以将推测执行的任务尽量分配给快节点执行，最大化的减少集群中资源的浪费，更好地满足用户的需求。最后，我们通过搭建Hadoop集群对编写的双队列调度器的性能进行测试，验证了改进后调度算法的正确性，在集群中有各种类型的作业时，该调度器能够优先执行一些紧迫性要求较高的作业，以使它们尽早地完成，提高了集群资源的使用率，从而满足各种用户的需求。关键词：Hadoop；作业调度；云计算；推测执行任务 Abstract The giant companies of the Internet, such as Google, Yahoo, Amazon and Microsoft and so on, have large amounts of data. The exponential data bring out many problems, so they have to discover the new technologies to anaylyze TB and PB level mass data to achieve useful information. The message is useful to those companies to find the popular books and musics, and recommend the popular news and books to the potential customers. But, the existing tools are becoming unable to handle such large data sets. Google, the first company who provide the MapReduce programming model and the model is able to process the data of PB levels in inexpensive computer clusters parallelly. This solution has attracted many companies in academical and the industrial, because many companies face the same challenge of data expansion problems. The problem was that many companies didn’t have the ablity to develop theirs own tools. Some opensource software, such as Hadoop, OpenStack and so on, offer promising hope those companies, and the companies can store huge amounts of data on inexpensive computer clusters, and be able to use the idea of MapReduce parallel processing of these massive data , as they save a lot of computing and storage costs. As the existing Hadoo