- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
尊敬的评审专家-南京大学PASA大数据实验室.PDF
修改说明
尊敬的评审专家:
您好!首先,衷心感谢评审专家提出的宝贵意见。针对各位专家提出的问题,我们进行了认真的修
改,详细修改说明如下 (修改文字详见论文中高亮部分):
修改意见1:当MapReduce 程序的Map 任务不是I/O 密集型时,在Reduce 阶段依然会产生大量I/O 操作,
此时Reduce 程序的负载均衡问题就不能再简单地用文中所提方法,作者的方法需要改进。
修改结果:已修改
本文提出的负载均衡方法本质上解决的是 shuffle 阶段partition 函数分区不均导致的Reduce 任务负载
不均衡、从而影响连接查询的整体执行效率问题。对于评审专家所描述的“当Map 任务不是I/O 密集型时,
在Reduce 阶段依然会产生大量I/O 操作”的情况,本文提出的负载均衡方法基于的Reduce Join 就是符合
这种情形的一种连接算法,但原文没有描述清楚。因此,在修改文中我们做了进一步的描述,以便读者能
够清楚了解本文提出的负载均衡方法。修改文字如下 (对应文中标蓝部分):
Reduce Join[14] 的Map 阶段仅负责将参与连接的数据表中的记录解析成Key-Value 对 (此时I/O 操作很
少),并通过Shuffle 阶段传输到对应的Reduce 任务中,而真正的连接操作是在Reduce 阶段中完成的(此
时会产生大量I/O 操作)。考虑到I/O 代价是影响连接查询的主要因素,我们对产生大量I/O 操作的Reduce
阶段进行读写分析,综合考虑Reduce 任务的输入和输出代价及其对应的读写权重,最终基于这一综合代价
给出了Reduce 任务的负载均衡方法。
另外,本文以等值连接为例对负载均衡方法进行描述,但该方法并不仅限于此,还适用于其他连接,
也可以扩展到连接以外的其它类型作业。例如,进行近似连接时,只需将连接属性值a(键值对中的键)替换
为一个满足近似条件(如|a -a |≤) 的二元组a , a ,并将负载贡献值的计算公式中f 和f 分别替换为R
1 2 1 2 1a 2a 1
中连接属性值为a1 的元组个数以及R2 中连接属性值为a2 的元组个数。执行Replicated Join 时,键值对中的
key 将会变成多个连接属性构成的多元组。对于连接以外的其他作业,我们可以分别对Reduce 任务输入数
据和输出数据的处理代价函数进行适应性的更改 (论文3.2 节中已有相应描述)。
[14] Blanas S, Patel J M, Ercegovac V, et al. A comparison of join algorithms for log processing in MaPreduce
[C]// Proceedings of the ACM SIGMOD International Conference on Management of Data. Indianapolis, IN, US,
2010: 975-986.
修改意见2 :I/O 代价函数依赖于C ,C 和C ,即作者所提及的本地、网络和HDFS 的I/O 代价权重,但
1 2 3
没有给出确定这三个权重的方法,以及他们的大小关系。根据实践经验,C 一般远大于 C ,并且通常配
3 1
置的HDFS 的replicated block 都大于1,因此C 会远大于C *n+C * (n-1)(即本地存储一份,然后通过网
3 1 2
络传输到至少n-1 个datanode 备份保存 1 次),而C 与C 的大小关系要根据具体的硬件配置而定。作者
文档评论(0)