分布式流处理技术.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式流处理技术流处理算子算子数据源算子算子内容? 大数据处理模式? 流处理技术发展? 分布式流处理系统剖析? 分布式流处理应用实例大数据处理模式数据状态 动态数据Spark StreamingStorm基于内存静态数据 基于磁盘处理粒度细粒度粗粒度内容? 大数据处理模式? 流处理技术发展? 分布式流处理系统剖析? 分布式流处理应用实例流处理技术发展分布式流处理系统S4StormSamza……分布式化MedusaFluxBorealis……数据流管理系统AuroraSTREAMTelegraphCQStreamBase……实时数据库主动数据库信息过滤系统20世纪末时间21世纪初2010年至今内容? 大数据处理模式? 流处理技术发展? 分布式流处理系统剖析? 分布式流处理应用实例分布式流处理系统剖析负载控制存储管理语义保障 数据模型 系统容错系统架构分布式流处理系统剖析–数据模型处理单元连续不断的序列分布式流处理系统剖析–数据模型对象实例 (object)元组 (tuple)记录 (record)批次模型批次 (batch)减少传输成本降低容错难度处理单元增加处理延迟连续不断的序列分布式流处理系统剖析–系统架构守护进程守护进程A1B1C2调度程序中心节点/ 协调器节点1节点2AB 守护进程 B2节点3守护进程 C2 节点4C节点分布式流处理系统剖析–系统架构中心化弱中心化P2P节点1节点2节点1节点2节点1节点2中心节点协调 器节点3节点4节点3节点4节点3节点4中心节点分布式流处理系统剖析–存储管理“一过性” + 0故障概率=可靠保障存储支持“可重复性” +ε故障概率=可靠保障分布式流处理系统剖析–存储管理分布式流处理系统设计–存储管理数据说明处理方式可能改进元数据节点状态、任务信息、负载情况……ZooKeepernull原始数据系统接入的数据,如:句子上游组件(消息队列)集成可靠存储衍生数据计算产生的中间或最终结果,如:句子中某词出现的频数内存(最终结果可能写外部数据库)持久化接口(共享存储)分布式流处理系统剖析–语义保障语义应用场景实现方式至多一次粗略log分析、温度报警不重发至少一次一切幂等操作原始数据可重复精确一次数目敏感应用、金融相关基于至少一次,记录log 分布式流处理系统剖析–语义保障1、输出结果 2、记log 3、通知上游不要重发ID结果……1001234……处理单元ID=100ID 冲突写失败数据库分布式流处理系统剖析–负载控制 静态(算子分配)A1B1C2负载均衡手动 动态 (算子分配数据路由)节点1节点2自适应算子分配、数据路由算法 B2节点3C2 节点4分布式流处理系统剖析–系统容错恢复级别至多一次至少一次精确一次精确恢复是是是回滚恢复可能可能可能精确一次有损恢复可能否否分布式流处理系统剖析–系统容错快速恢复冗余检查点主动备用节省资源低延 迟上游备份分布式流处理系统剖析–系统容错算子1算子3状态1状态3算子2状态2节点1节点2分布式流处理系统剖析–系统容错 全局存储算子1算子3状态1状态3算子2状态2节点2 节点1分布式队列分布式流处理系统剖析–其他问题? 高可用性(HA)– 高延迟– 过度频繁负载调度– 语义保障失误造成崩溃– 故障恢复时间过长? 语言– 硬编码 ? Query/Manipulation Language– RDD Transformation内容? 大数据处理模式? 流处理技术发展? 分布式流处理系统剖析? 分布式流处理应用实例分布式流处理应用实例? 针对“海量”、“高速”数据进行较复杂处理,低延迟– 分布式时空K近邻搜索– 频繁伴随模式发现– 实时微博搜索– 流处理+批处理:TariDB分布式时空K近邻搜索? 问题– 海量的时空数据和大规模的并发搜索? 难点– 集中式的K近邻搜索算法难以应对时空大数据分布式时空K近邻搜索 基于主从分布式模型,通过建立分布式的动态Strip索引结构(DSI), 实现对海量数据的分布式实时索引;设计分布式搜索算法(DKNN), 通过最多两次迭代计算,得到准确的K近邻搜索结果。Z. Yu, X. Yu, Y. Liu, K. Q. Pu. Scalable Distributed Processing of KNearest Neighbor Queries over Moving Objects. In TKDE, 2014.频繁伴随模式发现? 问题:– 一组对象较短时间内在某个数据流连续出现– 该组对象之后一段时间内在多个数据流上以同样的方式出现– 实时发现多个数据流所有的频繁伴随模式? 难点:– 涉及多个流数据复杂关系的比较分析– 流数据快速到达且连续变化,需要实时返回结果频繁伴随模式发现 将流数据划分成Segment,将问题进行简化。 建立索引S

文档评论(0)

骨干 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档