尊敬的评审专家-南京大学PASA大数据实验室.PDFVIP

下载本文档

69
0
约6.06万字
约 12页
2019-04-09 发布于天津
举报
版权申诉

尊敬的评审专家-南京大学PASA大数据实验室.PDF

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

尊敬的评审专家-南京大学PASA大数据实验室.PDF

修改说明尊敬的评审专家：您好！首先，衷心感谢评审专家提出的宝贵意见。针对各位专家提出的问题，我们进行了认真的修改，详细修改说明如下（修改文字详见论文中高亮部分）：修改意见1：当MapReduce 程序的Map 任务不是I/O 密集型时，在Reduce 阶段依然会产生大量I/O 操作，此时Reduce 程序的负载均衡问题就不能再简单地用文中所提方法，作者的方法需要改进。修改结果：已修改本文提出的负载均衡方法本质上解决的是 shuffle 阶段partition 函数分区不均导致的Reduce 任务负载不均衡、从而影响连接查询的整体执行效率问题。对于评审专家所描述的“当Map 任务不是I/O 密集型时，在Reduce 阶段依然会产生大量I/O 操作”的情况，本文提出的负载均衡方法基于的Reduce Join 就是符合这种情形的一种连接算法，但原文没有描述清楚。因此，在修改文中我们做了进一步的描述，以便读者能够清楚了解本文提出的负载均衡方法。修改文字如下（对应文中标蓝部分）： Reduce Join[14] 的Map 阶段仅负责将参与连接的数据表中的记录解析成Key-Value 对（此时I/O 操作很少），并通过Shuffle 阶段传输到对应的Reduce 任务中，而真正的连接操作是在Reduce 阶段中完成的（此时会产生大量I/O 操作）。考虑到I/O 代价是影响连接查询的主要因素，我们对产生大量I/O 操作的Reduce 阶段进行读写分析，综合考虑Reduce 任务的输入和输出代价及其对应的读写权重，最终基于这一综合代价给出了Reduce 任务的负载均衡方法。另外，本文以等值连接为例对负载均衡方法进行描述，但该方法并不仅限于此，还适用于其他连接，也可以扩展到连接以外的其它类型作业。例如，进行近似连接时，只需将连接属性值a(键值对中的键)替换为一个满足近似条件(如|a -a |≤) 的二元组a , a ，并将负载贡献值的计算公式中f 和f 分别替换为R 1 2 1 2 1a 2a 1 中连接属性值为a1 的元组个数以及R2 中连接属性值为a2 的元组个数。执行Replicated Join 时，键值对中的 key 将会变成多个连接属性构成的多元组。对于连接以外的其他作业，我们可以分别对Reduce 任务输入数据和输出数据的处理代价函数进行适应性的更改（论文3.2 节中已有相应描述）。 [14] Blanas S, Patel J M, Ercegovac V, et al. A comparison of join algorithms for log processing in MaPreduce [C]// Proceedings of the ACM SIGMOD International Conference on Management of Data. Indianapolis, IN, US, 2010: 975-986. 修改意见2 ：I/O 代价函数依赖于C ，C 和C ，即作者所提及的本地、网络和HDFS 的I/O 代价权重，但 1 2 3 没有给出确定这三个权重的方法，以及他们的大小关系。根据实践经验，C 一般远大于 C ，并且通常配 3 1 置的HDFS 的replicated block 都大于1，因此C 会远大于C *n+C * （n-1）（即本地存储一份，然后通过网 3 1 2 络传输到至少n-1 个datanode 备份保存 1 次），而C 与C 的大小关系要根据具体的硬件配置而定。作者