EasyHadoop第六次分享-Hadoop小文件问题解决分享(蓝汛张月)EasyHadoop第六次分享-Hadoop小文件问题解决分享(蓝汛张月).pdf

EasyHadoop第六次分享-Hadoop小文件问题解决分享(蓝汛张月)EasyHadoop第六次分享-Hadoop小文件问题解决分享(蓝汛张月).pdf

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
EasyHadoop第六次分享-Hadoop小文件问题解决分享(蓝汛张月)EasyHadoop第六次分享-Hadoop小文件问题解决分享(蓝汛张月)

Hadoop小文件问题分享 @ 张月 蓝汛 计算机科学是这样一门科学:它相信所有问题都可以 通过多一个间接层来解决。 -Dennis DeBruler引自《重构》 HDFS中保存大量小文件的坏处 • 搞爆NameNode内存 • NameNode需要HDFS metadata加载到内存,所以文件数量的增加会 NN 导致 内存溢出。 • MapReduce运行低效 • map block JVM 因为 会对每个文件(或 )启动一个 和相关初始化工作。 128MB MR MR 实践测试文件大小适中( )并均匀的 比大量小文件 性能 提升近一倍。 • DN NN 大量小文件会导致 到 汇报低效,影响集群稳定性( cdh3u3有改善)。 小文件优化 减少小文件数量 —— • 利用SequenceFiles将小文件打包上传 • 优点:从源头避免小文件产生 • 缺点:无论是hadoop shell还是mapreduce不能进行灵活读取 • 使用HAR将HDFS中小文件打包归档(从HDFS) • 优点:减少既有HDFS中小文件数量 • HAR har mapreduce 缺点: 文件读取性能差,而且我没有成功运行 文件 • Hadoop append • 优点:直接追加数据到相同文件 • api 缺点:传说这不是一个普通开发者使用的 ,我在多线程写入相同文 件遇到并发问题,最重要的是无法追加数据到压缩文件 • Flume、FlumeNG、Scribe • 优点:通过中间层来汇聚数据的办法减少小文件 • 缺点:FlumeNG和scribe都不能很好传输压缩文件 小文件优化 减少小文件数量 接上 —— ( ) • 利用Hbase合并小文件 • 优点:从源头避免小文件产生 • 缺点:维护成本大幅提升 小文件优化 提升 性能 —— MR • jvm mr mapred.job.reuse.jvm.num.tasks=true 开启 重用( 属性 ) • 优点:设置简单,大量小文件下性能提升非常明显。 • 缺点:性能仍不理想 • CombineFileInputFormat • 优点:设置简单,性能有一定提升 • 缺点:性能仍不理想 • 其它 • mapred.reduce.parallel.copies mr 增加 值也可小幅提升 性能 名词说明 • (user) 用户(user): ((uusseerr)) • CDN QQ 我们的 服务客户,比如 ,新浪微博 •

您可能关注的文档

文档评论(0)

vshoulrengb3 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档