- 1
- 0
- 约5.75万字
- 约 65页
- 2019-05-11 发布于上海
- 举报
万方数据
万方数据
A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Engineering
Gearing MapReduce towards Iterative
Computing
Candidate : Genmao Yu
Major : Computer Software and Theory Supervisor : Associate Prof. Xuanhua Shi
Huazhong University of Science Technology Wuhan 430074, P.R.China
January, 2014
独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。
学位论文作者签名: 日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于
保密□ ,在 年解密后适用本授权书。
不保密□。
(请在以上方框内打“√”)
学位论文作者签名: 指导教师签名:
日期: 年 月 日 日期: 年 月 日
华中科技大学硕士学位论文
华
中
科
技
大
学
硕
士
学
位
论
文
摘 要
MapReduce 计算模型是一种流行的分布式计算模型。MapReduce 计算模型从解决 简单的文本处理问题发展到解决复杂的机器学习、数据挖掘和社交网络分析等问题, 从处理批处理型作业发展到处理迭代型作业。但是大量的使用经验表明 MapReduce 计算模型不适合迭代型作业。由于任务的重复执行特性和动态数据的存在,迭代型作 业中存在大量的数据传输。迭代算法广泛存在于机器学习、数据挖掘和社交网络分析 等应用中,现有 MapReduce 计算模型无法有效支持这类应用,设计一种能够透明高效 地支持迭代计算的 MapReduce 计算模型是亟待解决的问题。
针对现有 Hadoop 实现迭代算法存在网络传输负载大的问题,面向迭代计算 的 MapReduce 优化方法从计算模型的数据流角度出发,从四个不同角度进行优化:通过 一种动态数据的缓存策略,解决将动态数据存储于分布式文件系统中带来的额外网络 传输开销和磁盘 I/O 开销;通过一种动态数据的预取策略,解决传统系统中以任务为 单位请求和传输数据方式带来的极大的网络传输开销;通过一种面向迭代型作业的任 务调度策略,解决任务调度器对集群网络负载的弱感知性,并支持作业历史执行信息 的反馈优化;同时为了解决节点失败导致动态数据在存储和传输过程中丢失的问题, 提出针对于动态数据的容错策略以减少重复计算。基于以上优化方法实现了原型系统 Conch。
实验结果表明,Conch 系统能够透明高效地支持迭代型作业。基于现有测试规模, 动态数据传输规模降低了 16 倍。在单作业环境下相较于 Hadoop 系统和 HaLoop 系统, Conch 系统中 K-Means 作业性能提升了 17.7%和 14.7%,fuzzy C-Means 作业性能提升 了 15.9%和 13.5%。在多作业环境下,Conch 系统有更高的作业吞吐量,相较于 Hadoop 系统和 HaLoop 系统分别最高提升了 63.6%和 28.6%。
关键词:并行计算,迭代处理,内存缓存,任务调度,合并传输
I
II万方数据
II
万方数据
Abstract
MapReduce is a popular programming model. The utilization of MapReduce is extended from text processing to machine learning, data mining, social network analysis and so on, from batch processing to iterative processing. However, abundant experiences show that it is not efficient for iterative applications. Because of repe
您可能关注的文档
- 毛冬青总黄酮对脑缺血动物模型的影响-中药学专业毕业论文.docx
- 面向模块化移动机器人的无线自组网控制系统研究-机械工程专业毕业论文.docx
- 煤炭企业领域软件过程量化管理方法与模型研究-计算机应用技术专业毕业论文.docx
- 考虑批量的柔性车间调度研究与实现-机械工程专业毕业论文.docx
- 美时佳花茶包装设计-工业设计工程专业毕业论文.docx
- 罗茨鼓风机性能优化和内部流场的数值分析-机械电子工程专业毕业论文.docx
- 面向云计算环境的虚拟机在线迁移机制研究-计算机软件与理论专业毕业论文.docx
- 慢性阻塞性肺疾病患者急性加重期及稳定期血清Th17Treg相关细胞因子与肺功能、生活质量(CAT评分)的相关性分析-内科学专业毕业论文.docx
- 民警培训考核信息管理系统的设计与实现-软件工程专业毕业论文.docx
- 黄秋葵果实石油醚部位的化学成分研究-药物化学专业毕业论文.docx
- 全过程工程管理造价咨询工程监理项目服务方案投标方案(技术部分).doc
- 招标代理服务投标技术服务方案(技术方案).doc
- AI大模型与AIGC技术在公安领域的应用解决方案(99页 PPT).pptx
- 工业4.0智能制造数字工厂规划方案.pptx
- 树立社会主义核心价值观.docx
- 三年(2023-2025)中考历史真题分类汇编(全国)专题21 科技文化与社会生活(解析版).docx
- 2025年中考道德与法治真题完全解读(吉林卷).pdf
- 2025年中考道德与法治真题完全解读(安徽卷).pdf
- 三年(2023-2025)中考历史真题分类汇编(全国)专题14 人民解放战争(解析版).pdf
- 三年(2023-2025)广东中考历史真题分类汇编:专题03 中国近代史(八年级上册)(解析版).docx
原创力文档

文档评论(0)