凌莹在实时流计算中的应用与探索.pptx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PPT格式,可编辑可复制凌莹在实时流计算中的应用与探索大纲Apache Kafka简介与应用场景Apache Samza简介Apache Samza应用场景和功能介绍Apache Samza最新进展2017.Apache Kafka数据的搬运工2017.Apache Kafka数据规模? 每天约3万亿条消息; 0.5PB数据写, 2PB数据读? 超过5万个话题(Topics), 1百万个分区(Partitions)应用? 用户追踪数据? 日志/系统监控数据? 应用间通信? 在线与离线系统之间数据传输(数据库/前端 ?? Hadoop)2017.Apache Kafka: 高效且稳定可靠的系统应用于Espresso数据库的主从备份和跨数据中心同步(复制)2017.大纲Apache Kafka简介与应用场景Apache Samza简介Apache Samza应用场景和功能介绍Apache Samza最新进展2017.Apache Samza开源的分布式实时流处理平台Apache顶级项目14 Committers, 62 Contributors在领英大规模的部署? 超过300个应用; 10000+YARN容器; 每天处理超过 2500亿条消息广泛的用户LinkedIn, Uber, VMWare, Intuit, TripAdvisor, Slack…2017.Apache Samza实时流处理系统/平台2017.Apache Samza主要特点带状态的实时流处理(Stateful Processing)? 高性能,高可靠(在LinkedIn等公司经过大规模的应用)? 统一的流处理与批处理API? 灵活的部署方式? ...2017.大纲Apache Kafka简介与应用场景Apache Samza简介Apache Samza应用场景和功能介绍Apache Samza最新进展2017.Apache Samza: 应用场景1实时的广告质量评估? 如果广告在被浏览后2分钟内被点击则是“好”广告使用时间窗口(Windowing)Stream-Stream JApache Samza: 应用场景1如何处理事件延迟(Late arrival events)? 所有事件在本地存储(RocksDb)? 找到受影响的窗口进行再处理受Google MillWheel启发本地状态会在Kafka中备份,用于恢复Host Affinity避免冷启动2017.Apache Samza: 应用场景1当需要连接用户数据时Stream-Table JoinAdCApache Samza: 应用场景1使用本地数据库(RocksDb)? 100x性能提升? 保护主数据库Stream-Table JoinAdCBrooklin什么是Brooklin? 通用的数据导入系统? 支持多种数据源与目标(Kafka, Espresso…)可作为Samza IO2017.Apache Samza: 应用场景2对职位名称进行标准化,以便作为机器学习模型的输入(特征标准化)程序员软件工 程师后端工程师全栈工程 师代码诗人?2017.Apache Samza: 应用场景2将机器学习模型载入Samza任务中 实时读取数据库中的更新并输出职位标准化的结果2017.Apache Samza: 应用场景2重处理(Reprocessing)? 人为造成的bug,导致需要重放几个小时以前甚至几天以前的事件? 机器学习模型改变或业务逻辑改变,需要重新处理整个数据库2017.重处理(Reprocessing)重放4小时以前数据 重处理所有数据2017.Apache Samza: 应用场景2Samza on Hadoop将Samza部署在Hadoop集群,读写HDFS? 利用离线计算更强大的计算资源进行重处理? 以HDFS作为输入对业务逻辑进行试错和A/B测试2017.Samza on H其它应用场景通知控制系统 反作弊系统离线任务迁移到实时任务…2017.大纲Apache Kafka简介与应用场景Apache Samza简介Apache Samza应用场景和功能介绍Apache Samza最新进展2017.Apache Samza: 与Apache Beam的整合为什么加入Apache Beam多语言支持(Python, Java)? 在线与离线的整合? 更多IO接口2017.Apache Samza: Samza SQL基于Apache Calcite为什么做Samza SQL? 让更多人能使用实时流处理技术? 更简便的实时数据查询? 更便捷地创建实时流处理应用2017.Apache Samza: Samza SQL2017.感谢聆听!

文档评论(0)

我是大神 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档