4Hadoop-MapReduce程序性能调优.pptVIP

下载本文档

0
0
约3.17千字
约 18页
2018-09-21 发布于天津
举报
版权申诉

4Hadoop-MapReduce程序性能调优.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

4Hadoop-MapReduce程序性能调优.ppt

基于Hadoop的MapReduce分析张龙目录 1 MapReduce编程模型 2 MapReduce能做什么，不能做什么 3 Hadoop-MapReduce 技术简介 4 Hadoop-MapReduce程序性能调优 5 下一代MapReduce(YARN/MRv2) 1 MapReduce编程模型 2 MapReduce能做什么，不能做什么 MapReduce借用函数式语言的映射(Map)和规约(Reduce)原语，通过自动切分输入数据集，在独立的数据切片上应用Map操作产生中间结果的键值对(key/value pair)集合，然后通过分区操作(partition)确保具有同样键的数据映射到同一分区中并借助shuffle在无共享的集群中传递中间结果，最后在不同的中间结果分区中引用Reduce操作产生最终的规约结果。这种编程方式并不优雅！ 2 MapReduce能做什么，不能做什么 MapReduce编程规范中有一个重要假设：Mapper和Reducer过程不存在任何依赖，可以无交互的在不同的数据切片上独立执行。易并行模型 (Embarrassingly Parallel Computation ，EPC) 对于矩阵运算，大图运算。这种编程模型，无能为力。 2 MapReduce能做什么，不能做什么解决办法： Bulk Synchronous Programming，BSP 大同步编程模型 3 Hadoop-MapReduce 技术简介 3 Hadoop-MapReduce 技术简介 1 分布式并行计算 MapReduce框架是由JobTracker和TaskTracker两类服务调度的。JobTracker是主控服务，只有一个，负责调度和管理TaskTracker，把Map任务和Reduce任务分配给空闲的TaskTracker，使这些服务并行运行，并监控任务的运行情况。TaskTracker是从服务，可以有多个，负责执行任务。如果某个TaskTracker执行失败或者出现故障，JobTracker将这一任务分发给其他空闲的TaskTracker中。 2 本地计算通常，MapReduce框架和分布式文件系统是运行在一组相同的节点上的，这样配置，允许框架在那些存储数据的节点上高效的调度任务，避免带宽的浪费。 3 Hadoop-MapReduce 技术简介 3 Combine combine过程将map任务输出的有相同key值的多个key,value组合成一个key,list(value)。很多情况下，combine可以直接使用reduce函数，combine能减少中间结果的数量，从而减少数据传输的网络流量 4 Partition combine过程之后，把产生的中间结果按照key的范围划分成R份。通常采用hash函数完成，hash(key)mod R,这样保证一定范围内的key值，一定由某一个reduce任务完成，简化了Reduce过程。 5 读取中间结果 Map阶段的中间结果，会以文件形式保存在本地磁盘。中间结果的位置会通知给JobTracker，JobTracker再通知Reduce任务到哪一个DataNode上去取中间结果。 4 Hadoop-MapReduce程序性能调优 4.1 从应用程序角度进行优化 4.1.1 避免不必要的reduce任务。对于 4.1.2 外部文件引入，可以将文件通过DistributedCache放入缓存中，以在多个task之间共享文件。例子：JNI ,索引文件，基本数据的共享 4.1.3 考虑combiner 例子：最终处理的数据需要按key值排序存储。 4.1.4 根据处理数据的特征，选择合适的数据类型。 Text对象使用起来很方便，但它在由数值转换到文本或是由UTF8字符串转换到文本时都是低效的，且会消耗大量的CPU时间。当处理那些非文本的数据时，可以使用二进制的Writable类型，如IntWritable， FloatWritable等。二进制writable好处：避免文件转换的消耗；使map task中间结果占用更少的空间。 4.1.5 使用StringBuffer而不是String 4 Hadoop-MapReduce程序性能调优 4.2 从参数进行调优 Hadoop目前有190多个配置参数，其中大约有25个对hadoop应用程序效率有显著的影响。 MapReduce相关配置 io.sort.mb