- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据与审计流
版本 Kafka under audit: 0.8.1.1 Audit pipeline: Kafka 0.8.1.1 Spark 1.6.1 ElasticSearch 1.7.0 To be open sourced! 团队 微信 LinkedIn 欢迎加入我们 * * 数据质量监控中我们要解决什么问题? * * * SLA QPS Scale.. * Late arrival, out of order processing, duplication * SLA QPS Scale.. * * 基于Kafka和Spark的实时数据质量监控平台 邢国东 资深产品经理@ Microsoft 微信 LinkedIn 改变中的微软 微软应用与服务集团(ASG) Microsoft Application and Service Group ASG数据团队 大数据平台 数据分析 我们要解决什么问题 Kafka as data bus Devices Services Streaming Processing Batch Processing Applications Scalable pub/sub for NRT data streams Interactive analytics 数据流 快速增长的实时数据 1.3 million EVENTS PER SECOND INGRESS AT PEAK ~1 trillion EVENTS PER DAY PROCESSED AT PEAK 3.5 petabytes PROCESSED PER DAY 100 thousand UNIQUE DEVICES AND MACHINES 1,300 PRODUCTION KAFKA BROKERS 1 Sec 99th PERCENTILE LATENCY Kafka上下游的数据质量保证 Producer Kafka HLC Destination Destination Producer Producer Producer Producer Producer Producer Producer Producer Kafka HLC Kafka HLC 100K QPS, 300 Gb per hour Data == Money Lost Data == Lost Money 工作原理简介 工作原理 3 个审计粒度 文件层级(file) 批次层级(batch) 记录层级 (record level) Metadata { “Action” : “Produced or Uploaded”, “ActionTimeStamp” : “action date and time (UTC)”, “Environment” : “environment (cluster) name”, “Machine” : “computer name”, “StreamID” : “type of data (sheeps, ducks, etc.)”, “SourceID” : “e.g. file name”, “BatchID” : “a hash of data in this batch”, “NumBytes” : “size in bytes”, “NumRecords” : “number of records in the batch”, “DestinationID” : “destination ID” } 工作原理 – 数据与审计流 Audit system Kafka + HLC under audit Destination 1 Producer File 1: Produced: file 1: 3 records Record1 Record2 Record3 Uploaded: file 1: 3 records Record4 Record5 Produced 24 bytes 3 records Timestamp “File 1” BatchID=abc123 Produced 40 bytes 5 records Timestamp “File 1” BatchID=def456 Produced: file 1: 5 records Uploaded 24 bytes 3 records Timestamp BatchID Destination 1 Producer Data Center 数据时延的Kibana图表 数据完整性Kibana图表 3 lines Green how many records produced Blue: how many reache
您可能关注的文档
- 台南立民德国中一百学第二学期第一次成绩考查二年级国文科.doc
- 台北立二重国民中学九十六学第一学期第二次段考自然与生活.doc
- 台北信义区兴雅国民小学九十三学第一学期学校总体课程计划.doc
- 孙吴嘉荫地区早中生代花岗岩的年代学地球化学与成因-吉林大学学报.pdf
- 苏州中润建设管理咨询有限公司文件.pdf
- 苏州大学医学院护理系内科护理学学科课教案2009年12月13.doc
- 四幼虫背血管的观察.ppt
- 四大范畴防止贿赂条例剖析廉政公署的服务学校诚信管理.ppt
- 四川绵阳南山中学2012016学年高二10月月考化学试题.doc
- 四川锦屏二级电站高水头超深埋隧洞围岩质量分级快速评价-现代地质.pdf
- 基于手持技术再探氢氧化钠与二氧化碳的反应九年级化学人教版(2024)下册.ppt
- Module 6 单元说课 课件 2022-2023学年外研版英语九年级上册 .ppt
- 第18课 冷战与国际格局的演变 说课课件-高一下学期统编版必修中外历史纲要下.ppt
- 5.2创新实验:氨的喷泉实验 说课课件 高一下学期化学人教版必修第二册.ppt
- Unit 2 Looking into the Future Reading and Thinking 说课课件高中英语人教版选择性必修第一册.ppt
- 10.2人体细胞获得氧气的过程 呼吸运动实现肺通气说课课件 北师大版生物七年级下册.ppt
- 10《竹节人》说课课件语文六年级上册统编版.ppt
- 15.1《谏太宗十思疏》说课稿 课件 统编版高中语文必修下册.ppt
- 4.1拓展性实验教学 探究植物细胞的吸水和失水说课课件高一上学期生物人教版必修1.ppt
- 8.5.2直线与平面平行 说课课件高一下学期数学人教A版必修第二册.ppt
文档评论(0)