- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
EasyHadoop第六次分享-Hadoop小文件问题解决分享(蓝汛张月)EasyHadoop第六次分享-Hadoop小文件问题解决分享(蓝汛张月)
Hadoop小文件问题分享
@
张月 蓝汛
计算机科学是这样一门科学:它相信所有问题都可以
通过多一个间接层来解决。
-Dennis DeBruler引自《重构》
HDFS中保存大量小文件的坏处
• 搞爆NameNode内存
• NameNode需要HDFS metadata加载到内存,所以文件数量的增加会
NN
导致 内存溢出。
• MapReduce运行低效
• map block JVM
因为 会对每个文件(或 )启动一个 和相关初始化工作。
128MB MR MR
实践测试文件大小适中( )并均匀的 比大量小文件 性能
提升近一倍。
• DN NN
大量小文件会导致 到 汇报低效,影响集群稳定性(
cdh3u3有改善)。
小文件优化 减少小文件数量
——
• 利用SequenceFiles将小文件打包上传
• 优点:从源头避免小文件产生
• 缺点:无论是hadoop shell还是mapreduce不能进行灵活读取
• 使用HAR将HDFS中小文件打包归档(从HDFS)
• 优点:减少既有HDFS中小文件数量
• HAR har mapreduce
缺点: 文件读取性能差,而且我没有成功运行 文件
• Hadoop append
• 优点:直接追加数据到相同文件
• api
缺点:传说这不是一个普通开发者使用的 ,我在多线程写入相同文
件遇到并发问题,最重要的是无法追加数据到压缩文件
• Flume、FlumeNG、Scribe
• 优点:通过中间层来汇聚数据的办法减少小文件
• 缺点:FlumeNG和scribe都不能很好传输压缩文件
小文件优化 减少小文件数量 接上
—— ( )
• 利用Hbase合并小文件
• 优点:从源头避免小文件产生
• 缺点:维护成本大幅提升
小文件优化 提升 性能
—— MR
• jvm mr mapred.job.reuse.jvm.num.tasks=true
开启 重用( 属性 )
• 优点:设置简单,大量小文件下性能提升非常明显。
• 缺点:性能仍不理想
• CombineFileInputFormat
• 优点:设置简单,性能有一定提升
• 缺点:性能仍不理想
• 其它
• mapred.reduce.parallel.copies mr
增加 值也可小幅提升 性能
名词说明
• (user)
用户(user):
((uusseerr))
• CDN QQ
我们的 服务客户,比如 ,新浪微博
•
您可能关注的文档
- CSS背景颜色 背景图片 居中 重复 固定样式background经验篇CSS背景颜色 背景图片 居中 重复 固定样式background经验篇.doc
- CSR-USB蓝牙烧录器使用说明书CSR-USB蓝牙烧录器使用说明书.pdf
- CSR(SIRF) A6车载导航核心板解决方案CSR(SIRF) A6车载导航核心板解决方案.pdf
- cs优化脚本优化JavaScript脚本的性能cs优化脚本优化JavaScript脚本的性能.pdf
- Cruciferae.十字花科pptCruciferae.十字花科ppt.ppt
- CSS试题CSS试题.doc
- CTD格式申报资料CTD格式申报资料.ppt
- CT107D单片机综合实训平台CT107D单片机综合实训平台.pdf
- Cu元素对Cu(In,Ga)Se2薄膜及太阳电池的影响Cu元素对Cu(In,Ga)Se2薄膜及太阳电池的影响.pdf
- CVE-2012-0158 MSCOMCTL控件漏洞分析CVE-2012-0158 MSCOMCTL控件漏洞分析.pdf
文档评论(0)