- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据实时处理架构实践-朱健
大数据实时处理架构实践
朱健
提纲
实时计算简介
一个工程实践
系统设计建议
讨论和展望
什么是实时计算
低延时的流式数据处理
离线计算的补充
业务发展和技术进步的必然需求
关键点
分布式流式数据
低延迟
实时计算的要求
功能 性能
正确 可靠
如此多的选择
构建实时计算系统难点
坏消息:四座大山
功能 性能 正确 稳定
误区:不是离线任务的实时化
一个工程实践例子
业务需求和挑战
实时呈现广告主展示、点击、消耗数据
•数据量大:10w+ QPS
•数据延时低:一分钟之内
•数据准确无误
•高可靠7x24
系统构想图
输入数据 计算 结果存储
离线计算
流式
数据 计算 结果存储 实时计算
kafka spark streaming mysql
Spark streaming简介
RDD :分布式的可恢复数据集合,spark基于此做运算
Dstream :把stream离散化成单个的RDD ,运行spark引擎
实际的系统架构
HDFS
clicks Rdd1+offset1
UNION
GROUP result mysql
COUNT,SUM
impr Rdd2+offset2
check
monitor Error- point
detect
Ignore- Check-
bomb Start-stop
mark point
HDFS Spark-sql mysql
功能:多个流的处理
设计思路
输入2个流:点击、展现
点击和展现映射为2个表 ,执行Spark-SQL求出结果
文档评论(0)