- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
30张干货!玩转大数据测试实战.ppt-中国大数据
1.调度系统:整个数据链路的控制中心。承载着数万个作业的调度以及运维工作,这些作业包含同步数据源的同步作业和加工数据的计算作业(SQL\MR)。研发人员在调度系统上打包、发布、配置节点的父子依赖关系,以保障数据链路有序的执行。 2.数据源:主要来自两部分,一部分是日志数据,它包括用户的点击、浏览、收藏等等前台操作,这些数据通过前端的SPM埋点写入日志,由日志采集工具进行收集,最终同步到分布式计算平台上。另一部分是业务系统的数据,比如交易、用户中心这些源头数据存在前台业务的MYSQL,ORACLE库,通过同步工具(如阿里巴巴集团的datax工具)写入分布式计算平台。 3.分布式存储计算平台:分布式的计算和存储TB、PB级别的海量数据,全面支持基于SQL的数据处理。 如阿里巴巴的云梯系统(基于hadoop的海量数据存储与计算的系统,和开放数据处理服务 (Open Data Processing Service, ODPS) 阿里巴巴集团完全自主知识产权的云计算平台构建的数据存储与分析平台)数据开发人员在该平台上对数据进行深度加工和计算,最终将结果装载到输出表。 4.数据产出: 1)数据报表,为管理者、数据分析师提供决策支持,以及对外部的一些数据披露,如集团IPO财务报表。 2)回流业务系统,数据经过复杂的运算最终回流到前台数据库,在业务系统展现和反馈给外部用户。例如计算双11购车用户可获取红包的名单,在计算后的数据表最终通过同步工具,回流到天猫的前台业务库给用户发放红包。 3)数据产品,为商业智能领域的数据产品提供数据服务,例如阿里的数据魔方、淘宝指数、生意参谋等数据产品。 1、数据分布:旨在帮助用户用最短时间挖掘一张报表、一个字段的所有数据特性,自动校验是否满足用户期望,并将结果可视化推送给用户 2、数据对比:应用于系统迁移或底层数据改动,可支持不同集群,异构数据库的报表做全量数据对比来保障数据质量,粒度精确到全文对比 3、静态扫描:对HIVE、ODPSSQL脚本进行扫描,发现不符合预定义规范的写法、隐含的缺陷或者潜在的性能问题,帮助提高代码质量 4、代码转换:扫描HIVESQL中不符合ODPSSQL的语法,并提供批量修改、批量空跑和批量建表的功能 5、UDF单测:执行UDF函数的单元测试,计算行、方法、分支覆盖率,扫描安全及代码质量,支持持续集成 6、数据脱敏:去除数据中的敏感信息,又不改变数据的完整性和一致性 数据研发流程中的质量保证,这个就是我们日常的测试工作,开发/pd的自测,基本都是利用平台完成 2. 数据代码规范,可以扫描一些系统化的规则(基本代码规范,命名规范,sql语法、性能方面的规范,mapjoin 的顺序,join on条件)、自定义的规则(可以自己编码实现自己的业务逻辑) 3. 数据探查,可以在开发测试之前,一览数据整体和字段的情况,包括汇总信息,字段枚举,最大最小值,非空等等 4. 数据监控,可以配置线上数据、线下的校验规则;可以是自定义时间触发,也可以是根据天网配置的节点顺序来触发 5. 数据回归,在上线在之前在dev环境一键触发各种类型的数据测试用例,推送测试报告,作为是否可上线的参考信息 6. 数据迁移,包括同构异构的数据源之间的数据迁移,通过我们平台可以比较源端数据和目的端数据的数据差异,高效的数据对比,可支持到全文对比的力度。登月就是相当典型的案例 7. 代码重构,当有不同语法的代码转化的时候,可以通过我们的一套框架,可自定义的规则的插拔,自动替换,再空跑转化后的代码,再迭代循环。登月也是相当典型的案列,从hive语法-odps语法 8. 数据可视化,通过配置关注的数据,用不同的数据形式展现直观的数据,便于分析。数据概况、历史趋势、枚举分布、分组分布、基础分布、线上数据监控任务运行 9. 数据脱敏,支持从线上数据到stg环境数据的脱敏,根据字段含义和字段类型智能推荐脱敏的方案,目前有14中系统推荐智能方案 技术质量部-力霖 大数据测试实战 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 目录 背景 大数据测试方法 工具介绍 QA Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 第一部分 背景 Evaluation only. Created with Aspose.Slides for .NET 3.5
您可能关注的文档
- 2005年年报布置会议有关统计报表问题-湛江市卫生和计划生育局.ppt
- 2.7有源逆变电路.ppt
- 2.5.集装箱电子标签的综合示范应用-交通部西部项目管理中心.doc
- 2003格式效果实例二.ppt
- 2007年数学会工作总结.ppt
- 2007年惠来慈云实验中学高二生物选修3专题一(基因工程)测试题.doc.doc
- 2.选取合适框架来分析.ppt
- 2008年MBA毕业生工作相关说明-中国科学院大学管理学院.ppt
- 1_10410简易室修讲习-台中市直辖市室内设计装修商业同业公会.ppt
- 2007年免检工作要求.ppt
- 国家开放大学电大《中级财务会计》2025-2026期末试题及答案.docx
- 国家开放大学电大《公共政策概论》机考第三套真题题库及答案.docx
- 国家开放大学电大《中级财务会计(二)》2025-2025期末试题及答案(试卷代.docx
- 国家开放大学电大《行政法与行政诉讼法》形考任务3试题及答案完整题库.docx
- 国家开放大学电大《中级财务会计(一)》2025-2025期末试题及答案(试卷代王牌题库.docx
- 办公楼预算书设计范例解析.docx
- 国家开放大学电大《中级财务会计(一)》机考2套真题题库及答案15.docx
- 国家开放大学电大《中级财务会计(一)》2025-2025期末试题及答案(试卷代.docx
- 国家开放大学本科末考试数据结构历年试题与参考答案19C.docx
- 国家开放大学本科末考试数据结构历年试题与参考答案19C.docx
原创力文档


文档评论(0)