- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
百度系统部分布式系统介绍
马如悦
2010.08.27
主要内容
• 百度的数字
• 计算平台
– HPC
– DC
• 存储平台
– DFS
– DOS
• 数据平台(?)
百度的数字
• HPC - 高性能计算
– 200左右,8 core, 16GB~64GB
• DC - MapReduce计算
– 10个集群,共4000 台
– 8core,16GB,12*1TB
– 最大集群1000台
– 每日计算量2.5PB
– 每日作业数3w
• DS - 分布式存储
– 使用容量平均70%
计算平台
算法描述层 表示层SQL-like
Classification Regression
应用 应用
Map-Reduce DAG
矢量计算 Clustering 模型 模型
执行层(HPC scheduler agent) 执行层(DC scheduler agent)
通讯密集型-大规模HPC机群 数据计算密集型-大规模分布式计算机群
计算资源管理层—调度不同类型计算的agent
HPC
• 单机HPC
– Multicore
– GPU
– FPGA
• 多机HPC
– MPI
• 机器学习算法服务
– 单机HPC+多机HPC+MapReduce
• 应用
– 商务搜索、Baidu News
DC
• Abaci = Hadoop-MapRed+ 自主系统
• 表示层
– DISQL (to appear in Hadoop in China 2010)
• 调度层
– Master+Agent
– workflow元调度(in Master)
– 数据分发服务(in Agent): shuffle,bt文件分发
– 分布式Master
• 计算层
– Streaming - 文本处理
– Bistreaming - 二进制处理
– HCE - C++编程接口
–
DC-HCE-介绍
• Hadoop C++ Extension
• Jira: MapReduce-1270
– /jira/browse/MAPREDUCE-
1270
– Design Doc
– Patch
– Demo package
– Install Manual
– Tutorial
– Performance Test Doc
DC-HCE-背景
• Why not Pipes, Bistreaming
• Java语言效率: 提升10%~40%
– sort, compress/decompress
• Java 内存控制
• Full featured C++ API
DC-HCE-Design
HDFS
文档评论(0)