- 70
- 0
- 约6.06万字
- 约 12页
- 2019-04-09 发布于天津
- 举报
尊敬的评审专家-南京大学PASA大数据实验室.PDF
修改说明
尊敬的评审专家:
您好!首先,衷心感谢评审专家提出的宝贵意见。针对各位专家提出的问题,我们进行了认真的修
改,详细修改说明如下 (修改文字详见论文中高亮部分):
修改意见1:当MapReduce 程序的Map 任务不是I/O 密集型时,在Reduce 阶段依然会产生大量I/O 操作,
此时Reduce 程序的负载均衡问题就不能再简单地用文中所提方法,作者的方法需要改进。
修改结果:已修改
本文提出的负载均衡方法本质上解决的是 shuffle 阶段partition 函数分区不均导致的Reduce 任务负载
不均衡、从而影响连接查询的整体执行效率问题。对于评审专家所描述的“当Map 任务不是I/O 密集型时,
在Reduce 阶段依然会产生大量I/O 操作”的情况,本文提出的负载均衡方法基于的Reduce Join 就是符合
这种情形的一种连接算法,但原文没有描述清楚。因此,在修改文中我们做了进一步的描述,以便读者能
够清楚了解本文提出的负载均衡方法。修改文字如下 (对应文中标蓝部分):
Reduce Join[14] 的Map 阶段仅负责将参与连接的数据表中的记录解析成
原创力文档

文档评论(0)