网站大量收购闲置独家精品文档,联系QQ:2885784924

尊敬的评审专家-南京大学PASA大数据实验室.PDF

尊敬的评审专家-南京大学PASA大数据实验室.PDF

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
尊敬的评审专家-南京大学PASA大数据实验室.PDF

修改说明 尊敬的评审专家: 您好!首先,衷心感谢评审专家提出的宝贵意见。针对各位专家提出的问题,我们进行了认真的修 改,详细修改说明如下 (修改文字详见论文中高亮部分): 修改意见1:当MapReduce 程序的Map 任务不是I/O 密集型时,在Reduce 阶段依然会产生大量I/O 操作, 此时Reduce 程序的负载均衡问题就不能再简单地用文中所提方法,作者的方法需要改进。 修改结果:已修改 本文提出的负载均衡方法本质上解决的是 shuffle 阶段partition 函数分区不均导致的Reduce 任务负载 不均衡、从而影响连接查询的整体执行效率问题。对于评审专家所描述的“当Map 任务不是I/O 密集型时, 在Reduce 阶段依然会产生大量I/O 操作”的情况,本文提出的负载均衡方法基于的Reduce Join 就是符合 这种情形的一种连接算法,但原文没有描述清楚。因此,在修改文中我们做了进一步的描述,以便读者能 够清楚了解本文提出的负载均衡方法。修改文字如下 (对应文中标蓝部分): Reduce Join[14] 的Map 阶段仅负责将参与连接的数据表中的记录解析成Key-Value 对 (此时I/O 操作很 少),并通过Shuffle 阶段传输到对应的Reduce 任务中,而真正的连接操作是在Reduce 阶段中完成的(此 时会产生大量I/O 操作)。考虑到I/O 代价是影响连接查询的主要因素,我们对产生大量I/O 操作的Reduce 阶段进行读写分析,综合考虑Reduce 任务的输入和输出代价及其对应的读写权重,最终基于这一综合代价 给出了Reduce 任务的负载均衡方法。 另外,本文以等值连接为例对负载均衡方法进行描述,但该方法并不仅限于此,还适用于其他连接, 也可以扩展到连接以外的其它类型作业。例如,进行近似连接时,只需将连接属性值a(键值对中的键)替换 为一个满足近似条件(如|a -a |≤) 的二元组a , a ,并将负载贡献值的计算公式中f 和f 分别替换为R 1 2 1 2 1a 2a 1 中连接属性值为a1 的元组个数以及R2 中连接属性值为a2 的元组个数。执行Replicated Join 时,键值对中的 key 将会变成多个连接属性构成的多元组。对于连接以外的其他作业,我们可以分别对Reduce 任务输入数 据和输出数据的处理代价函数进行适应性的更改 (论文3.2 节中已有相应描述)。 [14] Blanas S, Patel J M, Ercegovac V, et al. A comparison of join algorithms for log processing in MaPreduce [C]// Proceedings of the ACM SIGMOD International Conference on Management of Data. Indianapolis, IN, US, 2010: 975-986. 修改意见2 :I/O 代价函数依赖于C ,C 和C ,即作者所提及的本地、网络和HDFS 的I/O 代价权重,但 1 2 3 没有给出确定这三个权重的方法,以及他们的大小关系。根据实践经验,C 一般远大于 C ,并且通常配 3 1 置的HDFS 的replicated block 都大于1,因此C 会远大于C *n+C * (n-1)(即本地存储一份,然后通过网 3 1 2 络传输到至少n-1 个datanode 备份保存 1 次),而C 与C 的大小关系要根据具体的硬件配置而定。作者

文档评论(0)

zcbsj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档