Gary-流批一体化的Flink计算平台.pdfVIP

  • 14
  • 0
  • 约2.72万字
  • 约 141页
  • 2022-04-08 发布于中国
  • 举报
流批一体化的Flink计算平台 Gary 前微博一直播业务实时计算负责人 议题内容 一、Flink 核心编程模型 四、开源计算项 目Waterdrop源码分析 1. 海量数据计算发展趋势 1. 功能分析 2. Flink 核心编程模型 2. 流程控制代码分析 3. Flink vs Spark vs Beam 3. 插件代码分析 二、Flink计算平台与业务场景结合 1. 实时数据仓库 五、深入 Flink核心特性 2. 广告点击 1. 哪些功能是Flink的核心特性? 3. 业务监控 2. Flink核心特性的最佳实践 3. 深入Flink核心特性的原理和代码 三、海量数据计算平台的挑战与方案 1. 流式计算开发运维痛点 2. 搭建计算平台的常见方案 流式计算的需求、范式、挑战 需求与挑战 : • 需要较好的性能,如 :计算延迟、吞吐 量、维表Join • 易用性越高越好,减少开发维护成本。 如一切皆SQL,流批一体化 • 有较强的能力来应对有状态计算 • 最好能做到端到端Exactly-Once • 支持处理CDC(Change Data Capture), 如MySQL Binlog • 助力实时数仓、数据湖 流式计算的需求、范式、挑战 - 流式计算的性能 是什么影响了计算延迟和吞吐量 ? Spark 用批的思想来处理流 流式计算的需求、范式、挑战 - 流式计算的性能 是什么影响了计算延迟和吞吐量 ? DataStream: • Unbounded Stream • Bounded Stream Flink 用流的思想作为流处理和批处理底 层实现,也为后面做流批统一打好了基础 流式计算的需求、范式、挑战 - 流式计算的性能 Unbounded Stream - Bounded Stream • 窗口 (Window) 窗口将无边界数据根据事件时间分成了一个个有限的数据集。我们可以看看批处 理这个特例。在批处理中,我们其实是把一个无穷小到无穷大的时间窗口赋予了 数据集。 • 水印 (Watermark) 水印是用来表示与数据事件时间相关联的输入完整性的概念。对于事件时间为 X 的水印是指 :数据处理逻辑已经得到了所有事件时间小于 X 的无边界数据。在数 据处理中,水印是用来测量数据进度的。 • 触发器 (Triggers) 触发器指的是表示在具体什么时候,数据处理逻辑会真正地触发窗口中的数据被 计算。触发器能让我们可以在有需要时对数据进行多次运算,例如某时间窗口内 的数据有更新,这一窗口内的数据结果需要重算。 流式计算的需求、范式、挑战 - 流式计算的性能

文档评论(0)

1亿VIP精品文档

相关文档