基于Spark-Streaming的实时计算服务平台.pdf

下载文档

12
0
约4.5千字
约 25页
2020-06-19 发布于山东
举报
保障服务

基于Spark-Streaming的实时计算服务平台.pdf

基于Spark-Streaming的实时计算服务平台廖晓辉@京东 Agenda • 技术要点 • 运行和监控 • Logging • 示例展示 • 典型问题 • 性能调优实践实时计算服务是？ • 目的： – 将通用的功能或可公用的资源平台化服务化，让用户专注实时业务处理逻辑的开发，用SQL或SDK ，要简单高效。 • 相关的计算环境： – 便捷的数据导入/流式数据接入 – 稳定可靠的流数据 – 多租户资源隔离，处理能力弹性扩容(吞吐量及响应时间) ，容错机制(考虑恢复成本和运行时成本) ，数据的严格有序到达和无序，及消费的有序无序…… – 结果数据获取 Why Spark-Streaming? • 用Spark Stack解决Batch以及Streaming处理问题，不需维护多套 Framework。 • YARN integration • 长期演进考虑项目背景 • 京东云数据开放服务—云海 • 实时计算需求 – 提供实时交易、实时流量等指标 – 有等价的T+1离线计算指标 • 需将T+1离线计算的指标转化为实时指标 • T+1离线计算复杂SQL转化为实时增量计算模式，并提供低延迟的实时结果 – 数据源为订阅线上关系库实时变更以及过滤后的结构化流式数据 – 计算过程需关联历史数据：事实表关联，维表数记录数多数据量大 – 低延迟、准确和可靠性 – …… 实时计算处理流程 App SQL Configuration Output Fields FA, FB, FC, … TableA Join Filter Join Filter Process TableB Join Filter TableB Aggregation, Distinct Count,… Expr(…) as FA, Expr(…) as FB, … … … Spark-Streaming App on Yarn Data Source Conn Info Kafka, RocketMQ Table Joins - HBase intermmediate Table HBase Get with

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于Spark-Streaming的实时计算服务平台.pdf