技术质量部力霖.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.调度系统:整个数据链路的控制中心。承载着数万个作业的调度以及运维工作,这些作业包含同步数据源的同步作业和加工数据的计算作业(SQL\MR)。研发人员在调度系统上打包、发布、配置节点的父子依赖关系,以保障数据链路有序的执行。 2.数据源:主要来自两部分,一部分是日志数据,它包括用户的点击、浏览、收藏等等前台操作,这些数据通过前端的SPM埋点写入日志,由日志采集工具进行收集,最终同步到分布式计算平台上。另一部分是业务系统的数据,比如交易、用户中心这些源头数据存在前台业务的MYSQL,ORACLE库,通过同步工具(如阿里巴巴集团的datax工具)写入分布式计算平台。 3.分布式存储计算平台:分布式的计算和存储TB、PB级别的海量数据,全面支持基于SQL的数据处理。 如阿里巴巴的云梯系统(基于hadoop的海量数据存储与计算的系统,和开放数据处理服务 (Open Data Processing Service, ODPS) 阿里巴巴集团完全自主知识产权的云计算平台构建的数据存储与分析平台)数据开发人员在该平台上对数据进行深度加工和计算,最终将结果装载到输出表。 4.数据产出: 1)数据报表,为管理者、数据分析师提供决策支持,以及对外部的一些数据披露,如集团IPO财务报表。 2)回流业务系统,数据经过复杂的运算最终回流到前台数据库,在业务系统展现和反馈给外部用户。例如计算双11购车用户可获取红包的名单,在计算后的数据表最终通过同步工具,回流到天猫的前台业务库给用户发放红包。 3)数据产品,为商业智能领域的数据产品提供数据服务,例如阿里的数据魔方、淘宝指数、生意参谋等数据产品。 1、数据分布:旨在帮助用户用最短时间挖掘一张报表、一个字段的所有数据特性,自动校验是否满足用户期望,并将结果可视化推送给用户 2、数据对比:应用于系统迁移或底层数据改动,可支持不同集群,异构数据库的报表做全量数据对比来保障数据质量,粒度精确到全文对比 3、静态扫描:对HIVE、ODPSSQL脚本进行扫描,发现不符合预定义规范的写法、隐含的缺陷或者潜在的性能问题,帮助提高代码质量 4、代码转换:扫描HIVESQL中不符合ODPSSQL的语法,并提供批量修改、批量空跑和批量建表的功能 5、UDF单测:执行UDF函数的单元测试,计算行、方法、分支覆盖率,扫描安全及代码质量,支持持续集成 6、数据脱敏:去除数据中的敏感信息,又不改变数据的完整性和一致性 数据研发流程中的质量保证,这个就是我们日常的测试工作,开发/pd的自测,基本都是利用平台完成 2. 数据代码规范,可以扫描一些系统化的规则(基本代码规范,命名规范,sql语法、性能方面的规范,mapjoin 的顺序,join on条件)、自定义的规则(可以自己编码实现自己的业务逻辑) 3. 数据探查,可以在开发测试之前,一览数据整体和字段的情况,包括汇总信息,字段枚举,最大最小值,非空等等 4. 数据监控,可以配置线上数据、线下的校验规则;可以是自定义时间触发,也可以是根据天网配置的节点顺序来触发 5. 数据回归,在上线在之前在dev环境一键触发各种类型的数据测试用例,推送测试报告,作为是否可上线的参考信息 6. 数据迁移,包括同构异构的数据源之间的数据迁移,通过我们平台可以比较源端数据和目的端数据的数据差异,高效的数据对比,可支持到全文对比的力度。登月就是相当典型的案例 7. 代码重构,当有不同语法的代码转化的时候,可以通过我们的一套框架,可自定义的规则的插拔,自动替换,再空跑转化后的代码,再迭代循环。登月也是相当典型的案列,从hive语法-odps语法 8. 数据可视化,通过配置关注的数据,用不同的数据形式展现直观的数据,便于分析。数据概况、历史趋势、枚举分布、分组分布、基础分布、线上数据监控任务运行 9. 数据脱敏,支持从线上数据到stg环境数据的脱敏,根据字段含义和字段类型智能推荐脱敏的方案,目前有14中系统推荐智能方案 技术质量部-力霖 大数据测试实战 目录 背景 大数据测试方法 工具介绍 QA 第一部分 背景 “人类正从IT时代走向DT时代” 背景 ETL过程 1.DT时代,数据将在生产品过程中起到激发、辅助的作用,让用户获得更大的经济价值。 2.数据蕴涵着巨大的商业价值,人们需要的就是快速对数据进行处理和分析,从而产生有价值的业务决策。 3.ETL过程为联机分析处理、数据挖掘提供决策支持的数据 保障数据质量 优化数据产出 提升开发测试效率 背景 如何在ETL的过程中 第二部分 大数据测试方法 TEXT HERE TEXT HERE TEXT HERE TEXT HERE TEXT HERE TEXT HERE TEXT HERE TEXT HERE TEXT HERE T

文档评论(0)

xiaofei2001129 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档