二零二三年优质公开课Hadoop企业优化.pptx

下载文档

0
0
约2.4千字
约 8页
2023-05-31 发布于安徽
举报
版权申诉
保障服务

二零二三年优质公开课Hadoop企业优化.pptx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

MapReduce跑的慢的原因Mapreduce 程序效率的瓶颈在于两点：1 计算机性能CPU、内存、磁盘健康、网络2 I/O 操作优化1）数据倾斜2） map 和 reduce 数设置不合理3） map 运行时间太长，导致 reduce 等待过久4）小文件过多5）大量的不可分块的超大文件6） spill 次数过多7） merge 次数过多等 MapReduce优化方法MapReduce 优化方法主要从六个方面考虑：数据输入、 Map 阶段、 Reduce 阶段、 IO 传输、数据倾斜问题和常用的调优参数。1 数据输入（1）合并小文件：在执行 mr 任务前将小文件进行合并，大量的小文件会产生大量的map 任务，增大 map 任务装载次数，而任务的装载比较耗时，从而导致 mr 运行较慢。（2）采用 CombineTextInputFormat 来作为输入，解决输入端大量小文件场景。2 Map 阶段（1）减少溢写（spill）次数：通过调整 io.sort.mb 及 sort.spill.percent 参数值，增大触发spill 的内存上限，减少 spill 次数，从而减少磁盘 IO。（2）减少合并（merge）次数：通过调整 io.sort.factor 参数，增大 merge 的文件数目，减少 merge 的次数，从而缩短 mr 处理时间。（3）在 map 之后，不影响业务逻辑前提下，先进行 combine 处理，减少 I/O。3 IO 传输（1）采用数据压缩的方式，减少网络 IO 的的时间。安装 Snappy 和 LZO 压缩编码器。（2）使用 SequenceFile 二进制文件。 MapReduce优化方法4 Reduce 阶段（1）合理设置 map 和 reduce 数：两个都不能设置太少，也不能设置太多。太少，会导致 task 等待，延长处理时间；太多，会导致 map、 reduce 任务间竞争资源，造成处理超时等错误。（2）设置 map、 reduce 共存：调整 pletedmaps 参数，使 map 运行到一定程度后， reduce 也开始运行，减少 reduce 的等待时间。（3）规避使用 reduce：因为 reduce 在用于连接数据集的时候将会产生大量的网络消耗。（4）合理设置 reduce 端的 buffer：默认情况下，数据达到一个阈值的时候， buffer 中的数据就会写入磁盘，然后 reduce 会从磁盘中获得所有的数据。也就是说， buffer 和 reduce是没有直接关联的，中间多个一个写磁盘-读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置，使得 buffer 中的一部分数据可以直接输送到 reduce，从而减少 IO 开销：mapred.job.reduce.input.buffer.percent，默认为 0.0。当值大于 0 的时候，会保留指定比例的内存读 buffer 中的数据直接拿给 reduce 使用。这样一来，设置 buffer 需要内存，读取数据需要内存， reduce 计算也要内存，所以要根据作业的运行情况进行调整。5 数据倾斜问题（1）数据倾斜现象数据频率倾斜——某一个区域的数据量要远远大于其他区域。数据大小倾斜——部分记录的大小远远大于平均值。（2）如何收集倾斜数据在 reduce 方法中加入记录 map 输出键的详细情况的功能。 MapReduce优化方法（3）减少数据倾斜的方法方法 1：抽样和范围分区可以通过对原始数据进行抽样得到的结果集来预设分区边界值。方法 2：自定义分区基于输出键的背景知识进行自定义分区。例如，如果 map 输出键的单词来源于一本书。且其中某几个专业词汇较多。那么就可以自定义分区将这这些专业词汇发送给固定的一部分reduce 实例。而将其他的都发送给剩余的 reduce 实例。方法 3： Combine 使用 Combine 可以大量地减小数据倾斜。在可能的情况下， combine 的目的就是聚合并精简数据。方法 4：采用 Map Join，尽量避免 Reduce Join。 HDFS小文件优化方法1 HDFS 小文件弊端HDFS 上每个文件都要在 namenode 上建立一个索引，这个索引的大小约为 150byte，这样当小文件比较多的时候，就会产生很多的索引文件，一方面会大量占用 namenode 的内存空间，另一方面就是索引文件过大是的索引速度变慢。2 解决方案（1）Hadoop Archive:是一个高效地将小文件放入 HDFS 块中的文件存档工具，它能够将多个小文件打包成一个 H

您可能关注的文档

文档评论（0）

胡老师K12教育坊 + 关注: 实名认证

内容提供者

从业20余年，中学高级教师，擅长公开课PPT制作等。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

二零二三年优质公开课Hadoop企业优化.pptx