- 14
- 0
- 约2.72万字
- 约 141页
- 2022-04-08 发布于中国
- 举报
流批一体化的Flink计算平台
Gary 前微博一直播业务实时计算负责人
议题内容
一、Flink 核心编程模型 四、开源计算项 目Waterdrop源码分析
1. 海量数据计算发展趋势 1. 功能分析
2. Flink 核心编程模型 2. 流程控制代码分析
3. Flink vs Spark vs Beam 3. 插件代码分析
二、Flink计算平台与业务场景结合
1. 实时数据仓库 五、深入 Flink核心特性
2. 广告点击 1. 哪些功能是Flink的核心特性?
3. 业务监控 2. Flink核心特性的最佳实践
3. 深入Flink核心特性的原理和代码
三、海量数据计算平台的挑战与方案
1. 流式计算开发运维痛点
2. 搭建计算平台的常见方案
流式计算的需求、范式、挑战
需求与挑战 :
• 需要较好的性能,如 :计算延迟、吞吐
量、维表Join
• 易用性越高越好,减少开发维护成本。
如一切皆SQL,流批一体化
• 有较强的能力来应对有状态计算
• 最好能做到端到端Exactly-Once
• 支持处理CDC(Change Data Capture),
如MySQL Binlog
• 助力实时数仓、数据湖
流式计算的需求、范式、挑战 - 流式计算的性能
是什么影响了计算延迟和吞吐量 ?
Spark 用批的思想来处理流
流式计算的需求、范式、挑战 - 流式计算的性能
是什么影响了计算延迟和吞吐量 ?
DataStream:
• Unbounded Stream
• Bounded Stream
Flink 用流的思想作为流处理和批处理底
层实现,也为后面做流批统一打好了基础
流式计算的需求、范式、挑战 - 流式计算的性能
Unbounded Stream - Bounded Stream
• 窗口 (Window)
窗口将无边界数据根据事件时间分成了一个个有限的数据集。我们可以看看批处
理这个特例。在批处理中,我们其实是把一个无穷小到无穷大的时间窗口赋予了
数据集。
• 水印 (Watermark)
水印是用来表示与数据事件时间相关联的输入完整性的概念。对于事件时间为 X
的水印是指 :数据处理逻辑已经得到了所有事件时间小于 X 的无边界数据。在数
据处理中,水印是用来测量数据进度的。
• 触发器 (Triggers)
触发器指的是表示在具体什么时候,数据处理逻辑会真正地触发窗口中的数据被
计算。触发器能让我们可以在有需要时对数据进行多次运算,例如某时间窗口内
的数据有更新,这一窗口内的数据结果需要重算。
流式计算的需求、范式、挑战 - 流式计算的性能
您可能关注的文档
- 2021年中国城市智能交通市场研究报告(简本V).pdf
- 2022金融科技趋势研究报告-恒生电子-2021-68页.pdf
- 201129 区块链安全与电子数据存证(SEU).pdf
- 761021(园区)智慧校园解决方案.pdf
- 20201029如何构建社区养老综合体-社区养老前沿模式解析.pdf
- AIdustry工业互联网项目 ——华能集团携手太极股份联合打造流程型行业工业互联网平台.pdf
- AI新基建发展白皮书.pdf
- BABOK如何分类需求.pdf
- BIM建筑信息技术在设计全过程中的应用.pdf
- BSN赋能平台产品介绍.pdf
- GETECH格创东智工业互联网平台 ——数字化、智能化工厂转型实践中的应用.pdf
- GE最后希望与坚守的启示:从工业智联网到工业5.0.pdf
- HyperledgerFabric智能合约进阶.pdf
- IBM周捷:电信行业的区块链应用.pdf
- IDC MarketScape:中国金融行业云及服务2018年厂商评估.pdf
- IDC未来银行白皮书.pdf
- IIC边缘计算白皮书Introduction_to_Edge_Computing_in_IIoT_2018-06-18.pdf
- iNeuOS 工业互联网一体化解决方案(三维智慧屏)-v1.3.pdf
- ITIL 4 基础认证在线课程-2天版-艾威培训.pdf
- JECN-APQC-跨行业流程分类框架PCF(XI)v7.2.0.pdf
原创力文档

文档评论(0)