网站大量收购独家精品文档,联系QQ:2885784924

分布式流处理技术讲述.pptx

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式流处理技术 流处理 算子 算子 数据源 算子 算子 内容 ? 大数据处理模式 ? 流处理技术发展 ? 分布式流处理系统剖析 ? 分布式流处理应用实例 大数据处理模式 静态数据 细粒度 粗粒度 基于内存 Storm 基于磁盘 处理粒度 数据状态 动态数据 Spark Streaming 内容 ? 大数据处理模式 ? 流处理技术发展 ? 分布式流处理系统剖析 ? 分布式流处理应用实例 流处理技术发展 实时数据库 主动数据库 信息过滤系统 20世纪末 时间 21世纪初 数据流管理系统 Aurora STREAM TelegraphCQ StreamBase …… 分布式化 Medusa Flux Borealis …… 2010年至今 分布式流处理系统 S4 Storm Samza …… 内容 ? 大数据处理模式 ? 流处理技术发展 ? 分布式流处理系统剖析 ? 分布式流处理应用实例 分布式流处理系统剖析 语义保障 数据模型 负载控制 存储管理 系统容错 系统架构 分布式流处理系统剖析–数据模型 连续不断的序列 处 理 单 元 对象实例 (object) 元组 (tuple) 记录 (record) 批次 (batch) 分布式流处理系统剖析–数据模型 连续不断的序列 处 理 单 元 批次模型 减少传输成本 降低容错难度 增加处理延迟 分布式流处理系统剖析–系统架构 节点 A B C 调度程序 节点1 A1 B1 守护进程 守护进程 B2 节点3 节点2 C2 守护进程 守护进程 C2 节点4 中心节点/ 协调器 分布式流处理系统剖析–系统架构 节点1 节点3 节点2 节点4 节点1 节点3 节点2 节点4 中心 节点 节点1 节点3 节点2 节点4 协调 器 中心 节点 P2P 中心化 弱中心化 分布式流处理系统剖析–存储管理 “一过性” + 0故障概率 = 可靠保障 “可重复性” + ε故障概率 = 可靠保障 存储支持 分布式流处理系统剖析–存储管理 数据 说明 处理方式 可能改进 元数据 节点状态、任务信息、负载情况…… ZooKeeper null 原始数据 系统接入的数据,如:句子 上游组件 (消息队列) 集成可靠存储 衍生数据 计算产生的中间或最终结果,如:句 子中某词出现的频数 内存(最终结果可 能写外部数据库) 持久化接口 (共享存储) 分布式流处理系统设计–存储管理 语义 应用场景 实现方式 至多一次 粗略log分析、温度报警 不重发 至少一次 一切幂等操作 原始数据可重复 精确一次 数目敏感应用、金融相关 基于至少一次,记录log 分布式流处理系统剖析–语义保障 ID 结果 …… 100 1234 …… ID=100 处 理 单 元 数据库 ID 冲突 写失败 分布式流处理系统剖析–语义保障 1、输出结果 2、记log 3、通知上游不要重发 分布式流处理系统剖析–负载控制 A1 B1 C2 节点1 B2 节点3 节点2 C2 节点4 负载均衡 静态 (算子分配) 动态 (算子分配 数据路由) 手动 自适应 算子分配、数据路由算法 恢复级别 至多一次 至少一次 精确一次 精确恢复 是 是 是 回滚恢复 可能 可能 可能 精确一次有损恢复 可能 否 否 分布式流处理系统剖析–系统容错 分布式流处理系统剖析–系统容错 快速 恢复 节省 资源 低延 迟 主动备用 检查点 上游备份 冗余 节点2 算子3 状态3 分布式流处理系统剖析–系统容错 节点1 算子1 状态1 算子2 状态2 算子3 状态3 分布式流处理系统剖析–系统容错 全局存储 算子1 状态1 算子2 状态2 节点2 节点1 分布式队列 分布式流处理系统剖析–其他问题 ? 高可用性(HA) – 高延迟 – 过度频繁负载调度 – 语义保障失误造成崩溃 – 故障恢复时间过长 ? 语言 – 硬编码 ? Query/Manipulation Language – RDD Transformation 内容 ? 大数据处理模式 ? 流处理技术发展 ? 分布式流处理系统剖析 ? 分布式流处理应用实例 分布式流处理应用实例 ? 针对“海量”、“高速”数据进行较复杂处理,低延迟 – 分布式时空K近邻搜索 – 频繁伴随模式发现 – 实时微博搜索 – 流处理+批处理:TariDB 分布式时空K近邻搜索 ? 问题 – 海量的时空数据和大规模的并发搜索 ? 难点 – 集中式的K近邻搜索算法难以应对时空大数据 分布式时空K近邻搜索 基于主从分布式模型,通过建立分布式的动态Strip索引结构(DSI), 实现对海量数据

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档