面向迭代计算的MapReduce优化方法研究-计算机软件与理论专业毕业论文.docxVIP

  • 1
  • 0
  • 约5.75万字
  • 约 65页
  • 2019-05-11 发布于上海
  • 举报

面向迭代计算的MapReduce优化方法研究-计算机软件与理论专业毕业论文.docx

万方数据 万方数据 A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Engineering Gearing MapReduce towards Iterative Computing Candidate : Genmao Yu Major : Computer Software and Theory Supervisor : Associate Prof. Xuanhua Shi Huazhong University of Science Technology Wuhan 430074, P.R.China January, 2014 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本论文属于 保密□ ,在 年解密后适用本授权书。 不保密□。 (请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 华中科技大学硕士学位论文 华 中 科 技 大 学 硕 士 学 位 论 文 摘 要 MapReduce 计算模型是一种流行的分布式计算模型。MapReduce 计算模型从解决 简单的文本处理问题发展到解决复杂的机器学习、数据挖掘和社交网络分析等问题, 从处理批处理型作业发展到处理迭代型作业。但是大量的使用经验表明 MapReduce 计算模型不适合迭代型作业。由于任务的重复执行特性和动态数据的存在,迭代型作 业中存在大量的数据传输。迭代算法广泛存在于机器学习、数据挖掘和社交网络分析 等应用中,现有 MapReduce 计算模型无法有效支持这类应用,设计一种能够透明高效 地支持迭代计算的 MapReduce 计算模型是亟待解决的问题。 针对现有 Hadoop 实现迭代算法存在网络传输负载大的问题,面向迭代计算 的 MapReduce 优化方法从计算模型的数据流角度出发,从四个不同角度进行优化:通过 一种动态数据的缓存策略,解决将动态数据存储于分布式文件系统中带来的额外网络 传输开销和磁盘 I/O 开销;通过一种动态数据的预取策略,解决传统系统中以任务为 单位请求和传输数据方式带来的极大的网络传输开销;通过一种面向迭代型作业的任 务调度策略,解决任务调度器对集群网络负载的弱感知性,并支持作业历史执行信息 的反馈优化;同时为了解决节点失败导致动态数据在存储和传输过程中丢失的问题, 提出针对于动态数据的容错策略以减少重复计算。基于以上优化方法实现了原型系统 Conch。 实验结果表明,Conch 系统能够透明高效地支持迭代型作业。基于现有测试规模, 动态数据传输规模降低了 16 倍。在单作业环境下相较于 Hadoop 系统和 HaLoop 系统, Conch 系统中 K-Means 作业性能提升了 17.7%和 14.7%,fuzzy C-Means 作业性能提升 了 15.9%和 13.5%。在多作业环境下,Conch 系统有更高的作业吞吐量,相较于 Hadoop 系统和 HaLoop 系统分别最高提升了 63.6%和 28.6%。 关键词:并行计算,迭代处理,内存缓存,任务调度,合并传输 I II万方数据 II 万方数据 Abstract MapReduce is a popular programming model. The utilization of MapReduce is extended from text processing to machine learning, data mining, social network analysis and so on, from batch processing to iterative processing. However, abundant experiences show that it is not efficient for iterative applications. Because of repe

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档