- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式流处理技术
流处理
算子
算子
数据源
算子
算子
内容
? 大数据处理模式
? 流处理技术发展
? 分布式流处理系统剖析
? 分布式流处理应用实例
大数据处理模式
静态数据
细粒度
粗粒度
基于内存
Storm
基于磁盘
处理粒度
数据状态
动态数据
Spark Streaming
内容
? 大数据处理模式
? 流处理技术发展
? 分布式流处理系统剖析
? 分布式流处理应用实例
流处理技术发展
实时数据库
主动数据库
信息过滤系统
20世纪末
时间
21世纪初
数据流管理系统
Aurora
STREAM
TelegraphCQ
StreamBase
……
分布式化
Medusa
Flux
Borealis
……
2010年至今
分布式流处理系统
S4
Storm
Samza
……
内容
? 大数据处理模式
? 流处理技术发展
? 分布式流处理系统剖析
? 分布式流处理应用实例
分布式流处理系统剖析
语义保障
数据模型
负载控制
存储管理
系统容错
系统架构
分布式流处理系统剖析–数据模型
连续不断的序列
处
理
单
元
对象实例 (object)
元组 (tuple)
记录 (record)
批次 (batch)
分布式流处理系统剖析–数据模型
连续不断的序列
处
理
单
元
批次模型
减少传输成本
降低容错难度
增加处理延迟
分布式流处理系统剖析–系统架构
节点
A
B
C
调度程序
节点1
A1
B1
守护进程
守护进程
B2
节点3
节点2
C2
守护进程
守护进程
C2
节点4
中心节点/
协调器
分布式流处理系统剖析–系统架构
节点1
节点3
节点2
节点4
节点1
节点3
节点2
节点4
中心
节点
节点1
节点3
节点2
节点4
协调
器
中心
节点
P2P
中心化
弱中心化
分布式流处理系统剖析–存储管理
“一过性” + 0故障概率
=
可靠保障
“可重复性” +
ε故障概率
=
可靠保障
存储支持
分布式流处理系统剖析–存储管理
数据
说明
处理方式
可能改进
元数据
节点状态、任务信息、负载情况……
ZooKeeper
null
原始数据
系统接入的数据,如:句子
上游组件
(消息队列)
集成可靠存储
衍生数据
计算产生的中间或最终结果,如:句
子中某词出现的频数
内存(最终结果可
能写外部数据库)
持久化接口
(共享存储)
分布式流处理系统设计–存储管理
语义
应用场景
实现方式
至多一次
粗略log分析、温度报警
不重发
至少一次
一切幂等操作
原始数据可重复
精确一次
数目敏感应用、金融相关
基于至少一次,记录log
分布式流处理系统剖析–语义保障
ID
结果
……
100
1234
……
ID=100
处
理
单
元
数据库
ID 冲突
写失败
分布式流处理系统剖析–语义保障
1、输出结果 2、记log 3、通知上游不要重发
分布式流处理系统剖析–负载控制
A1
B1
C2
节点1
B2
节点3
节点2
C2
节点4
负载均衡
静态
(算子分配)
动态
(算子分配
数据路由)
手动
自适应
算子分配、数据路由算法
恢复级别
至多一次
至少一次
精确一次
精确恢复
是
是
是
回滚恢复
可能
可能
可能
精确一次有损恢复
可能
否
否
分布式流处理系统剖析–系统容错
分布式流处理系统剖析–系统容错
快速
恢复
节省
资源
低延
迟
主动备用
检查点
上游备份
冗余
节点2
算子3
状态3
分布式流处理系统剖析–系统容错
节点1
算子1
状态1
算子2
状态2
算子3
状态3
分布式流处理系统剖析–系统容错
全局存储
算子1
状态1
算子2
状态2
节点2
节点1
分布式队列
分布式流处理系统剖析–其他问题
? 高可用性(HA)
– 高延迟
– 过度频繁负载调度
– 语义保障失误造成崩溃
– 故障恢复时间过长
? 语言
– 硬编码 ? Query/Manipulation Language
– RDD Transformation
内容
? 大数据处理模式
? 流处理技术发展
? 分布式流处理系统剖析
? 分布式流处理应用实例
分布式流处理应用实例
? 针对“海量”、“高速”数据进行较复杂处理,低延迟
– 分布式时空K近邻搜索
– 频繁伴随模式发现
– 实时微博搜索
– 流处理+批处理:TariDB
分布式时空K近邻搜索
? 问题
– 海量的时空数据和大规模的并发搜索
? 难点
– 集中式的K近邻搜索算法难以应对时空大数据
分布式时空K近邻搜索
基于主从分布式模型,通过建立分布式的动态Strip索引结构(DSI),
实现对海量数据
您可能关注的文档
- 婚礼项目计划书讲义.doc
- 01.1机组吹灰器A级检修综述.doc
- 01-第1章_大学生心理健康概述综述.ppt
- 01-古代城市建设史第一讲综述.ppt
- 肺栓塞护理讲述.ppt
- 回顾拓展七讲义.ppt
- 肺炎喘嗽(肺炎)中医护理方案讲述.ppt
- 多彩的建筑讲述.ppt
- 01.光纤通信导论综述.ppt
- 第一章静力学公理和物体的受力分析讲述.ppt
- 2025年中国视音频矩阵切换分配器市场调查研究报告.docx
- 2023安徽合肥市长丰县公共资源交易有限责任公司招聘人员3人笔试参考题库附带答案详解.pdf
- 2025年中国移动投光灯具市场调查研究报告.docx
- 2025年中国铜/钼铜/铜电子封装材料市场调查研究报告.docx
- 2023届大庆炼化分公司高校毕业生春季招聘5人笔试参考题库附带答案详解.pdf
- 2023山东日照交通能源发展集团有限公司招聘专业技术人员6人笔试参考题库附带答案详解.pdf
- 2023年中国南水北调集团新能源投资有限公司夏季校园招聘1人笔试参考题库附带答案详解.pdf
- 2023年中国电信蚌埠分公司客户经理招聘笔试参考题库附带答案详解.pdf
- 2023年中国矿业大学资源与地球科学学院江苏省能源国际有限公司工程技术人员招聘笔试参考题库附带答案详解.pdf
- 2025年中国浮球式液位变送器市场调查研究报告.docx
文档评论(0)