- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MapReduce中连接负载均衡优化研究.pdf
CN 43—1258/TP 计算机工程与科学 第 36卷第 1O期 2014年 1O月
ISSN l007 l30X ComputerEngineering Science Vo1.36,No.10,OCt.2014
文章编 号 :1007—130X(2014)10—1860—06
MapReduce中连接负载均衡优化研究
翟红敏 ,刘 国华 ,赵 威 ,刘源源 ,翟红坤
(1.东华大学计算机科学与技术学院,上海 201620;2.国网黑龙江省 电力有限公司信息通信公司,黑龙江 哈尔滨 150000)
摘 要:数据分析和处理是大规模分布式数据处理应用中的重要任务。由于简单易用和具有灵活性,
MapReduce编程模型逐渐成为大规模分布式数据 处理 系统 (如 Hadoop系统)的核心模型 。由于所处理
的数据可能不是均 匀分布的,MapReduce编程模型在处理连接操作 时,会 出现数据倾斜 问题 。数据倾斜
问题严重降低 了MapReduce执行连接操作的效率。针对 MapReduce中连接操作的数据倾斜 问题 ,分析
了造成 MapReduce连接性能瓶颈的原因并建立负载均衡代价模型 ,提 出了用范围分割方法控制连接过程
中的数据倾斜 问题实现负载均衡 的策略 。实验结果表明,所提方法明显提高了连接的效率。
关键词 :MapReduce;连接 ;数据倾斜 ;范围分割 ;负载均衡
中图分类号 :TP391.9 文献标志码 :A
doi:10.3969/i.issn.1007—13OX.2O14.10.004
OptimizingloadbalancingofjoinsinMapReduce
ZHAIHong—min,LIU Guo—hua,ZHAO W ei,LIU Yuan—yuan,ZHAIHong—kun
(1.SchoolofComputerandScience,DonghuaUniversity,Shanghai201620;
2.StateGridCorporationofChinaHeilongjiangElectricPowerCompanyLtd.,
Information&LTelec0mmunicationBranch,Harbin150000,China)
Abstract:Dataanalysisand processingisoneofthemostimportanttasksinlarge—scaledistributed
dataprocessing applications.Due to itssimplicity and scalability,M apReduceprogramming modelhas
graduallybecomethecrucialmodelforlarge—scale distributed dataprocessing systems (eg.Hadoop).
Sincethedatamaybeuniformly distributed,data skew occurswhen MapReduceprogrammingmodel
joinsdata,thusdegradingthejoinperformanceseverely.Tosolvedataskew,itsreasonisanalyzed,the
loadbalancingcostmodelisestablished,andtherangepartitioneralgorithm isproposed tO controldata
skew SOastorealizeloadbalancing.Experimentalresultsdemonstratethatourmethodcanobviouslyim—
provetheefficiencyofjoins.
Keywords:MapReduce;join;dataskew;rangepartitioner;loadbalancing
您可能关注的文档
- 2000-2012年长三角地区FDI与碳排放量的相关性分析.pdf
- 288.15-318.15K温度范围内离子液体[C_5mim][Pro]水溶液的体积和表面性质.pdf
- 3D打印在整形外科领域的应用现状及展望.pdf
- 4,4'-(苯并噻唑-4,7-二取代)-二苯甲酸钴(Ⅱ)配位聚合物的溶剂热合成及结构表征.pdf
- 4-巯基苯甲酸-Ag20表面增强拉曼散射的化学增强电荷转移机理研究(英文).pdf
- 4G移动通信技术应用及发展研究.pdf
- 80后知识型员工离职管理探究——基于工作嵌入理论.pdf
- 90后大学生的思想特点与教育对策.pdf
- 90后大学生群体身份认同的建构.pdf
- BQ分解在核心通货膨胀中的应用研究.pdf
- ASX_Series_操作说明书手册.pdf
- Battery-Backup-Kit-Installation-操作说明书手册.pdf
- DCB-05-V2-操作说明书手册.pdf
- DEIMOS-Installation-操作说明书手册.pdf
- Axess-Pro-Series-2120-Roller-Shutter-Pendant-操作说明书手册.pdf
- Controll-A-Door-P-Diamond-操作说明书手册.pdf
- Controll-A-Door-PD-Power-Drive-操作说明书手册.pdf
- Controll-A-Door-Secure-SDO-6-操作说明书手册.pdf
- AMX_Series_操作说明书手册.pdf
- ELI-250-Installation-操作说明书手册.pdf
最近下载
- 中华人民共和国机械行业标准燃煤热风炉技术条件.PDF
- 武汉市光谷为明实验学校新初一分班语文试卷含答案.pdf VIP
- 浙江大学紫金港校区校园平面图.PDF VIP
- 中级车号员(长)试题及答案.pdf VIP
- 铁路车号员(长):中级车号员(长)测试题.docx VIP
- 铁路车号员(长)中级车号员(长)试卷(铁路车号员(长)).doc VIP
- 铁路车号员(长)车号员一体化考试试卷(铁路车号员(长)).doc VIP
- 铁路车号员(长)铁路车号员(长)综合练习试卷(铁路车号员(长)).doc VIP
- 铁路车号员(长)铁路车号员(长)综合练习试卷.doc VIP
- 初中数学高质量作业设计策略与实践.pptx
文档评论(0)