基于Kafka以及Spark Streaming的高扩展性数据质量保证平台.ppt

基于Kafka以及Spark Streaming的高扩展性数据质量保证平台.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
版本 Kafka under audit: 0.8.1.1 Audit pipeline: Kafka 0.8.1.1 Spark 1.6.1 ElasticSearch 1.7.0 To be open sourced! 团队 微信 LinkedIn 欢迎加入我们 * * 数据质量监控中我们要解决什么问题? * * * SLA QPS Scale.. * Late arrival, out of order processing, duplication * SLA QPS Scale.. * * 基于Kafka和Spark的实时数据质量监控平台 改变中的微软 微软应用与服务集团(ASG) Microsoft Application and Service Group ASG数据团队 大数据平台 数据分析 我们要解决什么问题 Kafka as data bus Devices Services Streaming Processing Batch Processing Applications Scalable pub/sub for NRT data streams Interactive analytics 数据流 快速增长的实时数据 1.3 million EVENTS PER SECOND INGRESS AT PEAK ~1 trillion EVENTS PER DAY PROCESSED AT PEAK 3.5 petabytes PROCESSED PER DAY 100 thousand UNIQUE DEVICES AND MACHINES 1,300 PRODUCTION KAFKA BROKERS 1 Sec 99th PERCENTILE LATENCY Kafka上下游的数据质量保证 Producer Kafka HLC Destination Destination Producer Producer Producer Producer Producer Producer Producer Producer Kafka HLC Kafka HLC 100K QPS, 300 Gb per hour Data == Money Lost Data == Lost Money 工作原理简介 工作原理 3 个审计粒度 文件层级(file) 批次层级(batch) 记录层级 (record level) Metadata { “Action” : “Produced or Uploaded”, “ActionTimeStamp” : “action date and time (UTC)”, “Environment” : “environment (cluster) name”, “Machine” : “computer name”, “StreamID” : “type of data (sheeps, ducks, etc.)”, “SourceID” : “e.g. file name”, “BatchID” : “a hash of data in this batch”, “NumBytes” : “size in bytes”, “NumRecords” : “number of records in the batch”, “DestinationID” : “destination ID” } 工作原理 – 数据与审计流 Audit system Kafka + HLC under audit Destination 1 Producer File 1: Produced: file 1: 3 records Record1 Record2 Record3 Uploaded: file 1: 3 records Record4 Record5 Produced 24 bytes 3 records Timestamp “File 1” BatchID=abc123 Produced 40 bytes 5 records Timestamp “File 1” BatchID=def456 Produced: file 1: 5 records Uploaded 24 bytes 3 records Timestamp BatchID Destination 1 Producer Data Center 数据时延的Kibana图表 数据完整性Kibana图表 3 lines Green how many records produced Blue: how many reached destination #1 Green: how many r

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档