HBase系统故障恢复的优化实践分享.pdf

支付宝HBase系统故障恢复的优化实 践分享 支付宝-数据平台架构师-代志远 自我介绍 • 支付宝-数据平台-架构组-代志远 (网名:国宝) • 从事过分布式文件系统、MapReduce框架研发 • 后加入支付宝后从事海量计算工作,主导分布式存储、搜 索、计算系统的研发和架构工作,开发和维护支付宝 Hadoop集群与HBase集群,分布式搜索集群 • 《HBase权威指南》译者 简要介绍 • HBase系统中存在的可用性风险 存储容灾但RegionServer服务不容灾。 Failover流程复杂,消耗时间长 HDFS的NameNode存在单点故障 监控不完善,监控粒度太粗 对以上问题我们进行了针对性优化。 我们以支付宝的消费记录项目为技术优化切入点来跟大家分享这些经验。 大纲 ①支付宝消费记录背景-HBase ②RegionServer宕机恢复的关键流程 ③RegionServer宕机failover的优化 ④HDFS NameNode的HA优化 ⑤监控优化 支付宝消费记录项目背景-HBase 2011 2012 二期规划上线,使用 一期上线0.90.x版本, HBase0.92 -coprocessors 解决海量数据的在 解决online count与sum 线实时查询问题。 的需求 支付宝消费记录背景-HBase 选择 业务规模 技术要求 HBase 业务系统现状 • 数百亿条数据 , • 近百T存储空间(压缩后,并且不算冗余三份 ) • 索引表数千亿条数据 • 数据增长高速(随支付宝业务高速增长而高速成 长) 支付宝消费记录背景-HBase 选择 业务规模 技术要求 HBase 业务系统现状 • 用户按时间范围顺序查询占据90%以上的查询 • 要求相应延时较低 – 面向用户在线查询 支付宝消费记录背景-HBase 选择 业务规模 技术要求 HBase 业务系统现状 • 之前MySQL集群存在高频率人为分库、扩容性较差 等问题。(MySQL是传统集中式数据库的典型代表) • HBase 水平拓展能力强 • 满足强一致性读写 • 可pre-sharding • 满足实时读写,吞吐量大,支持海量数据存储 •

文档评论(0)

1亿VIP精品文档

相关文档