- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ArchSummit全球架构师峰会深圳站2016
推送背后的大数据系统
袁凯@个推
主要内容
• 个推推送业务数据背景
• 我们面临的挑战
• 大数据系统演进之路
• 经验与总结
• QA
个推推送业务数据背景 (2016.06 )
• SDK累计安装覆盖量达90亿(含海外)
• 接入应用超过43万
• 接入开发者超过22万
• 独立终端覆盖超过10亿 (含海外)
• 日均活跃用户近7亿
• 同时在线超过3.5亿
• 日分发消息29亿条
我们面临的挑战
• 数据存储(PB级别)
• 日志传输(10TB+/day、实时)
• 日志分析处理(日常定时执行、交互式)
• 大量任务调度和管理(2K+ jobs/day)
• 数据分析处理服务高可用
• 海量多维度报表(推送、用户等)
• 用户画像(标签系统等)
• 快速响应分析和取数需求(开发、分析、运营人员等许多业务方)
个推大数据系统演进之路
统计报表 大数据基础建设 工具+服务+产品
2014年之前 2014-2015年 2016年
演进之——统计报表计算
平台节
点-1
平台节 日志存储节 日志计算节
Mysql
点-2 点 (多台) 点(多台)
平台节 Redis
点-N
业务特点:
• 传输上只需要运维定时脚本传输到指定中间节点
• 用户虽然有亿级别但是日志种类比较单一
• 统计处理需求只需要使用简单shell、php脚本采用多进程模式运行在多台高配置的主机上即可满足。
• 数据只是需要保存短期 (结果集长期保存、中间数据和原始数据很短时间)。
演进之——大数据基础建设 :离线批处理系统
平台节
点
平台节 日志临存 Mysql
HDFS Hive/MR/Mahout
点 储节点 Cluster
平台节
点 HBase
业务特点:
• 用户数量暴增,客户报表和内部统计分析需求复杂(海量、多维度)。
• 很多需求需要在T+1时间内满足(用户标签更新、日常取数、报表等)。
• 数据需要保存更长的周期(挖掘、统计)。
演进之——大数据基础建设 :实时处理系统
平台节 日志存储 Hive Mysql
点 节点 HDFS Mapreduce Cluster
Spark
平台节
点
camus Codis
f
l
u
m
平台节 e
文档评论(0)