- 0
- 0
- 约3.85千字
- 约 17页
- 2019-01-04 发布于福建
- 举报
淘宝hado成op应用--分布式数据处理实践
* * * 淘宝分布式数据处理实践 淘宝数据平台及产品部 周敏 zhouchen.zm@ 2010-09-04 主要内容 淘宝的数据 云梯介绍 对Hadoop的主要功能扩展与改造 Hive实践 对Hive的改造 分布式数据仓库构思 淘宝的数据 Oracle 备库 MySQL 备库 日志系统 云梯1 TimeTunnel JDBCDUMP 数据平台 搜索 支付宝 B2B 云梯2 Gateway Servers 数据魔方 量子统计 口碑 DataExchange 爬虫数据 Map Reduce Java Jobs Streaming Jobs Hive Jobs 广告 BI 淘数据 推荐系统 搜索排行 … 淘宝数据的形状 核心数据来源于Oracle备库 大部分数据结构化,数据具有模式 稠密 云梯1规模 总容量9.3PB, 利用率77.09% 总共1100台机器 Master:8CPU(HT),48G内存,SAS Raid Slave节点异构 8CPU/8CPU(HT) 16G/24G内存 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD 12/20 slots 约18000道作业/天, 扫描数据:约500TB/天 用户数474人, 用户组38个 云梯1规模-slave Slave机器异构 6T机器磁盘利用率较高 Rebalance 单机速度控制:10M/s 每天9:00 ~ 23:30运行 Slave故障率 每周10 ~ 20次硬盘故障 每周1 ~ 2次主板或其他故障 云梯1 Hadoop版本 基于0.19.1 大量Patch 主要来自官方社区0.19.2, 0.20, 0.21等 自己开发的 Hadoop客户端和服务端代码开发分离, 云梯管理员只负责服务端升级, 并保持版本向下兼容 云梯主要功能扩展 安全性 密码认证 (hadoop.job.ugi) 扩展ACL,用户访问其他组的数据(开发中) Scheduler 基于FairScheduler的改造 slots动态调整(网页形式,每小时更新) 各个组使用自己的资源 Slave单磁盘容错 DataNode坏掉一块磁盘不需要停止,减少数据分发 TaskTracker坏掉一块磁盘后不对作业造成影响 Master节点容灾方案 3个Master + 1个Standby节点 配置文件一致,上传至SVN Virtual IP (NameNode和JobTracker) JobTracker无元数据,JobHistory每天备份七天前的历史文件 NameNode和SecondaryNameNode Check point 1天做一次(晚上8点之后),降低NameNode启动时间 Fsimage和edits同时通过NFS写到SNN上,元数据保存两份 Standby在NN或JT宕机时启用 将来的工作 开发一种新型的调度器 调度效率低下导致集群利用率不足 基于红黑树的调度器 NameNode HA Namenode 内存瓶颈 Heap Size 40G,CMS gc之后 23G 分布式NameNode, Dynamic Partition Tree Hadoop 升级 OSD及CRUSH算法 Hive使用 2009年3月调研,4月投入生产 CLI与Thrift Server并用 Web/SSH 界面 模板化 预加载 86个统一发布UDF Lineage Analysis 极限存储 增量存储表 按数据的生命周期分目录 实践经验 数据倾斜 内存优化 I/O优化 Multi-Insert 数据压缩 淘宝对Hive的贡献与改造 UDFs 建立/删除临时函数 多线程 Thrift server GBK支持 完全JDBC Multi Distinct Aggregation支持 认证与权限 bug fix 将来的工作 Hive IDE Multi Distinct Aggregation优化 Multi Group By优化 极限存储的索引与文件 表统计信息的支持 采用TFile做列存储尝试 分布式数据仓库构思 Hadoop 集群 JobTracker TaskTracker Postgres 实例 MapTask ReduceTask TaskTracker Postgres 实例 MapTask ReduceTask TaskTracker Postgres 实例 MapTask ReduceTask 提交MapReduce作业 Anthill 服务器 元数据库 分析器 优化器 规划器 执行器 Anthill客户端 网络 链接 淘宝数据魔方 淘宝数据平台团队博客 / 个人 /minzhou * *fil
您可能关注的文档
- 塑料产菜品结构设计参考资料.doc
- 塑料加工企业的套期保亮值方案解析.pptx
- 塑胶产品结构话语设计注意事项.doc
- 算术平均数祥与几何平均数.doc
- 随便“点”餐厅庆市场调查策划方案.ppt
- 酸奶的种类介谨慎绍及其生产工艺.ppt
- 随机存取存储器r争am的工作原理.doc
- 算法与打程序框图复习课.ppt
- 算术平均数与芒几何平均数习题精讲.doc
- 随机事朵件的概率.doc
- 初中九年级英语Unit 13环境保护主题听说整合教学设计.docx
- 85分式方程及其解法课件人教版数学八年级上册.pptx
- 基于核心素养的博物馆主题说明文写作教学设计与实施——以九年级英语为例.docx
- 53一次函数的意义第课时课件浙教版八年级数学上册.pptx
- 大单元视角下“人民民主政权的巩固”与历史关键能力进阶教学设计——以初中历史中考复习课为例.docx
- 五年级数学下册典型例题解析人教版期末重点攻克.pptx
- 小学四年级信息技术《智启信息时代:查找网上信息的基石》教学设计及反思.docx
- 大疆域·大人口·大战略:中国国家空间认知的初步建构.docx
- 人教版(一年级起点)小学英语四年级上册Revision 1 Lesson 2教学设计.docx
- 大单元结构化复习:旧民主主义革命时期(18401919)的内忧外患与救亡图存.docx
最近下载
- 党员2025年度组织生活会“(对照贯彻党的创新理论方面,对照加强党性锤炼方面,对照联系服务群众方面,对照发挥先锋模范作用方面,对照改作风树新风方面)五个对照”对照检查材料.docx VIP
- 2025年湖南省永州市中考部编人教语文试题及参考答案解析及答案.pdf VIP
- 设备安全危险预知培训课件.pptx VIP
- 2025CWIS指南:肋骨骨折手术稳定PPT课件.pptx VIP
- 神经病学第九版-第二章 神经系统的解剖、生理及病损的定位诊断.pptx VIP
- 广州市五年级上学期语文期末考试试卷.doc VIP
- VTE的预防和护理课件(完整版).pptx VIP
- 陕西省2025年初中学业水平考试物理试卷真题(含答案详解).docx
- 数据中心浸没式液冷系统功能规范.docx VIP
- 测控电路(第5版)李醒飞课后习题答案(含一到五章).pdf
原创力文档

文档评论(0)