百度hadoop计算技术发展.pdf

下载文档 降价啦

9
0
约6.16千字
约 26页
2019-03-07 发布于山东
举报
版权申诉
保障服务

百度hadoop计算技术发展.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

百度分布式计算技术发展连林江 2012.07.08 我基础架构部项目经理负责分布式计算团队 HDFS MapReduce及其他批量计算模型 Resource Management System 大纲分布式计算平台我们的挑战分布式计算技术2.0 展望分布式计算平台 2008 开始于Hadoop v0.18/0.19 300台机器，2个集群日志分析网页建库策略训练 Now 报表计算 Link挖掘总规模2W以上最大集群接近4,000节点每日处理数据20PB+ 分布式计算平台每日作业数120,000+ 日志网页 UGC 我们的挑战规模单集群100020003000500010000 效率资源利用率（cpu/mem/io ）—高峰vs平均存储利用—无压缩、冷数据存储与计算资源使用均衡问题服务可用随着规模增大问题变得突出 3K+节点升级或异常小时级中断用户影响面：在可用99.9%下用户容忍度变低分布式计算技术2.0 Hadoop MapReduce HDFS Other MapReduce Computing 2.0 Model HDFS 2.0 ARK （A Resource Keeper ） HDFS 2.0--Scalability 1.0面临问题内存可扩展性 1.5亿文件/1.2亿块，内存占用90GB 负载可扩展性集群规模扩大单点NameNode请求压力增大 3000节点：连接超时/拒绝，有时操作响应延迟高 HDFS 2.0--Scalability HDFS 2.0--Scalability HDFS 2.0--Scalability 内存负载: 10亿文件，10亿块 Namespace ：66GB文件数据+1GB目录，单节点管理请求负载 13.7%耗cpu操作 Namespace Namespace不再维护块信息，大部分操作都不需要加全局锁，可以更充分利用CPU资源吞吐按照我们的负载读写比例 x5~10 HDFS 2.0--Availability