- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据
万方数据
Dissertation Submitted to Shanghai Jiao Tong University for the Degree of Master
Research and Optimization of Adaptive Checkpoint Technique in MapReduce
Candidate: Hao Wang
Student ID: 1120379024
Supervisor: Prof. Fei Hu Academic Degree Applied for: Master of Engineering Speciality: Software Engineering
Affiliation: School of Software
Date of Defence: Jan. 14th, 2015
Degree-Conferring-Institution: Shanghai Jiao Tong University
上海交通大学工学硕士学位论文 摘要
基于自适应策略的 MapReduce 检查点技术的研究与
优化
摘 要
大数据处理已然成为当今计算机科学领域至关重要的技术之一,人类迎来 了最新的知识获取范式,一个商业公司对大数据的获取、存储与处理能力已成 为其核心竞争力之一。大数据面临着诸多问题,数据的规模正在非线性增长, 传统的数据库技术早已不能满足大数据的要求。Google 公司于 2004 年提出的 MapReduce 框架成为大数据时代具有里程碑意义的技术,基于 MapReduce 的 性能优化、容错策略与演化的编程模型层出不穷。MapReduce 框架提供的编程 模型非常简洁,使得其对应的调度与容错策略都可以变得简单而直接。然而, MapReduce 的开源实现 Hadoop 的容错性能却不容乐观。
本文深入探讨并总结了 Hadoop MapReduce 的原理与执行过程,分析了其 缺陷,致力于引入少量改动而大幅度提升其容错性能,最终实现了优化的 BeTL MapReduce。Hadoop 在任务层实现了其容错策略,每一个错误都将导致整个任 务的重新执行,这带来了大量的错误恢复开销。MapReduce 的编程模型的高度 灵活度使得 Hadoop 可以实现更细粒度的容错策略,其在错误场景下的性能有 很大的优化空间。BeTL 的核心思想为尽可能地复用各个任务已经完成的部分, 错误重试的尝试和推测执行尝试跳过已经完成的输入区间,最大程度地减小 IO 开销。
BeTL 利用 Map 任务在执行过程中产生的溢写文件,以此为基础创建检查 点。Reduce 任务不再消费 Map 任务产生的单个输出文件,取而代之的是这些零 星的检查点文件。在 Map 任务失败时,只要某个检查点文件仍然可用,新的重 试任务尝试就可以跳过该检查点对应的输入区间,这大大缩短了重试任务的耗 时。推测执行策略亦可以受益于 BeTL 的检查点策略,为此 BeTL 对 LATE 调 度器进行了细微的修改以增强推测执行的效果。本文还讨论了一些其他的优化 措施,包括 Combiner Cache 和弹性检查点创建特性,很大程度地减小了 BeTL
— i —
基于自适应策略的 MAPREDUCE 检查点技术的研究与优化 上海交通大学工学硕士学位论文
带来的额外开销,且提高了检查点策略的效用。
最后,设计并执行了大量实验,对 BeTL 引入的所有新特性进行了认真的 评估,包括实验结果数据分析、理论推演与论证和实验数据佐证,BeTL 在零错 误与高密度错误场景下均优于原先的 Hadoop。在实践中,小的改动也可以带来 显著的性能提升,BeTL 正是一个典型的例子。深入细致地分析程序每一处的 瓶颈资源并做出相应的优化,可以达到事半功倍的效果。
关键词: Hadoop MapReduce 容错 自适应 检查点 任 务调度 推测执行
ii —
上海交通大学工学硕士学位论文 ABSTRACT
Research and Optimization of Adaptive Checkpoint Technique in MapReduce
ABSTRACT
Big data is gaining its popularity during the last few years and it has become one of the most significant areas of computer science. The human beings are exploring their brand new knowledge acquiring pattern. The ability to efficiently gathe
您可能关注的文档
- 基于自由现金流量的投资战略动态管理研究-财务管理专业论文.docx
- 基于自由现金流量的大股东“隧道挖掘”问题研究-会计学专业论文.docx
- 基于自由现金流量的企业价值估价研究-技术经济及管理专业论文.docx
- 基于自由电枢喷射系统的小型车辆增程式混合动力系统控制系统的研究-机械工程专业论文.docx
- 基于自由空间法的毫米波段生物材料复介电常数测量研究-环境工程专业论文.docx
- 基于自由现金流量的财务战略管理研究-工商管理专业论文.docx
- 基于自由现金流量的企业价值评估方法的改进及其应用-财务管理专业论文.docx
- 基于自相似业务源的EPON上行调度机制的研究-通信与信息系统专业论文.docx
- 基于自由贸易协定的中泰进口关税制度比较研究-企业管理专业论文.docx
- 基于自相似和压缩感知的多聚焦图像融合-计算机科学与技术专业论文.docx
- 基于自适应笛卡尔网格的运动边界虚拟单元法流体力学专业论文.docx
- 基于自适应笛卡尔网格的运动边界虚拟单元法-流体力学专业论文.docx
- 基于自适应算法的变频器控制系统研究-控制理论与控制工程专业论文.docx
- 基于自适应算法的电力系统谐波检测分析-电力系统及其自动化专业论文.docx
- 基于自适应算法的并联有源电力滤波器研究-控制科学与工程专业论文.docx
- 基于自适应结构概要的有向标前图子图查询匹配算法研究-计算机软件与理论专业论文.docx
- 基于自适应粒子群算法的电力系统多目标无功优化研究-电气工程专业论文.docx
- 基于自适应细分方法的医学图像三维重建及可视化技术研究-机械设计及理论专业论文.docx
- 基于自适应肤色模型与几何特征的人脸检测-控制理论与控制工程专业论文.docx
- 基于自适应补偿方法的阻抗测量研究-电力系统及其自动化专业论文.docx
最近下载
- Unit+4+Section+A+2a-2e课件+2025-2026学年人教版(2024)英语八年级上册.pptx VIP
- 小学总务处主任述职报告PPT.pptx VIP
- Unit 4 Section A (1a~2e) 课件2025-2026学年人教版八年级英语.pptx VIP
- 世界的地形课件七年级地理上学期人教版1.pptx
- 世界的地形课件七年级地理上学期人教版2.pptx VIP
- (正式版)DB15∕T 2748-2022 《绿色电力应用评价方法》.docx VIP
- 人教版(2025) 必修第一册 Unit 2 Travelling Around Reading and Thinking课文解析&逐句翻译课件(共17张PPT))(含音频+视频).pptx VIP
- 制造业采购付款制度及流程设计.docx VIP
- 继承优良传统弘扬中国精神 (第二版).pptx VIP
- 含硅废渣综合利用项目环评(新版环评)环境影响报告表.doc
文档评论(0)