- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[HiC2011]HDFS的透明压缩存储和压缩传输(刘景龙).pdf
HDFS的透明压缩存储 刘景龙 邮箱:baggioss@ twitter :baggioss
主要内容 Hadoop @baidu 过去一年的工作 进行中的项目 透明压缩 目标 实现 如何解决核心问题 如何规避风险 未来计划 Hadoop@baidu 16000+ 机器,10个集群 最大集群机器数3000台 存储 127.2PB/174.5PB 72% 处理 17PB+ 数据/每天 平均CPU使用率 55 %, 峰值80 % - 90 %
16000 180
14000 160
12000 140
10000 2009 120 2009 8000 2010 100 2010 2011 80 6000 2011 60 4000 40 2000 20 0 0 总集群规模(台) 单集群机器数(台) 存储容量(P) 每天处理数据量 P 过去一年的工作 HDFS : 规模问题改进: Namenode 启劢优化 幵行加载fsimage Namenode rpc优化 registerChannel 锁优化 HADOOP-7105 使用独立线程RegisterChannel 和cleanup 数据安全问题改进 块复制机制改进
过去一年的工作 Hard link Why not symbol link 跨机房优化 跨机房提交作业 listStatus + getBlockLocation too many rpc 跨机房数据传输 dfs.send.socket.buffer.size datanode, client dfs.datanode.recv.buffer.size datanode 过去一年的工作 Mapred: Shuffle独立 Hce 2.0 Hce基础上支持streaming 接口 作业断点重启
进行中的项目 存储 可扩展 性 存储 存储空 间利用 可用性 率
主要内容 Hadoop @baidu 过去一年的工作 进行中的项目 透明压缩 目标 实现 如何解决关键问题 如何规避风险 未来计划
目标 节省存储空间 避免压缩影响计算作业 用户透明
实现 NameNode Client Block report hearbeat DataNode Compressor Service B l getTask o Scheduler c k compressor a c c e s Storage module s l a y e r
如何解决关键问题? 如何控制资源使用 Datanode 任务分配 Xceiver 数 2.6.32 内核进程/ io 优先级调度 如何确定冷数据 增加block的atime ,1周没有访问? 如何处理特殊操作 append 随机读
存储结构 DataNode Storage 未压缩块 压缩块 Block file Compressed Block file Index file meta file meta file
收益
如何规避风险 尝试解压 目的:规避压缩算法bug 小流量上线 目的:上线一个机架datanode ,避免透明压缩bug导 致数据丢失 黑白名单
In the future 开源 /jira/browse/HDFS- 2542 多出的Quota分给谁 协处理器应用
In the future 透明压缩传输
Q A 谢 谢! 透明压缩黑名单实现 NameNode Compressor admin
Client Block report heartbeat DataNode B Scheduler l o c k a Compressor Service c c Policy controller e s s getTask l a y Storage module compressor e r
Fsimage并行加载 HDFS-1070 短路 径优化 并行加载fsimage
Shuffle独立- 解决问题 map/reduce 槽位隔离,槽位利用率低 shuffle占用reduce槽位,资源利用率低 shuffle和reduce串行,对大作业,运行时间 长 Shuffle/reduce自身的问题,内存利用率不高 ,连接数打满
Shuffle独立–结构
传输项目
文档评论(0)