培训讲座_淘宝分布式数据处理实模板.pptVIP

  • 0
  • 0
  • 约2.85千字
  • 约 17页
  • 2015-08-29 发布于贵州
  • 举报

培训讲座_淘宝分布式数据处理实模板.ppt

* 淘宝分布式数据处理实践 主要内容 淘宝的数据 云梯介绍 对Hadoop的主要功能扩展与改造 Hive实践 对Hive的改造 分布式数据仓库构思 淘宝的数据 Oracle 备库 MySQL 备库 日志系统 云梯1 TimeTunnel JDBCDUMP 数据平台 搜索 支付宝 B2B 云梯2 Gateway Servers 数据魔方 量子统计 口碑 DataExchange 爬虫数据 Map Reduce Java Jobs Streaming Jobs Hive Jobs 广告 BI 淘数据 推荐系统 搜索排行 … 淘宝数据的形状 核心数据来源于Oracle备库 大部分数据结构化,数据具有模式 稠密 云梯1规模 总容量9.3PB, 利用率77.09% 总共1100台机器 Master:8CPU(HT),48G内存,SAS Raid Slave节点异构 8CPU/8CPU(HT) 16G/24G内存 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD 12/20 slots 约18000道作业/天, 扫描数据:约500TB/天 用户数474人, 用户组38个 云梯1规模-slave Slave机器异构 6T机器磁盘利用率较高 Rebalance 单机速度控制:10M/s 每天9:00 ~ 23:30运行 Slave故障率 每周10 ~ 20次硬盘

文档评论(0)

1亿VIP精品文档

相关文档