- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
百度大数据质量保障方案探索
2014.11,钱承君
自我介绍
大型分布式系统
存储体系大数据
存储体系
分布式计算
机器学习
质量保障体系建设
架构师管理者
百度的大数据在做什么
“BIGDATA”
isliketeenagesex
everyonetalksaboutit,nobody
reallyknowshowtodoit,everyonethinkseveryoneelseisdoingit,soeveryoneclaimstheyaredoingit…
当传统测试遭遇大数据
对系统或系统原件在特定条件下的运行结果进行观察或记录,并对系统和原件进行某些方面特性的评价
–IEEE对“测试”的定义
数据测试传统测试
数据测试
传统测试
百度地图的案例
百度搜索的案例
图片搜索的案例
启动这一项目的背景
年度平衡记分卡(BSC)关键行动项
形成体系快速复用定义数据质量标准项目的总体目标
形成体系快速复用
定义数据质量标准
当传统测试团队遇到数据项目,怎么办?
我们希望提供“数据测试体系建设”的解决方案
提供实施案例参照
复杂算法复杂数据流超大数据量基础架构大数据带来的测试挑战
复杂算法
复杂数据流
超大数据量
基础架构
无验收标准
平台与应用
算法测试的常用手段
常规功能测试
常规功能测试
?
?功能测试,数据驱动、蜕变
?异常测试,容错、抗压、死锁、健壮性
?算法特性,例如线性递增性
非功能性测试
?基本指标,例如吞吐、并发、时延
?伸缩性,例如算法复杂度、性能拐点
?资源损耗,计算密集型还是存储密集型
其他常用方法
其他常用方法
?同类算法的交错验证
?同类算法的交错验证
?引入类似真实场景,对算法系统端对端测试
?建设获取大数据样本的能力
无验收标准的大数据应用
大数据应用的质量保障
推荐、预测、数据挖掘、机器学习等
质量标准:相关性、重复度、品类覆盖、排序
持续评估:低成本例行评估,采样、众包
小流量实验支持
研发过程支持,全流程工具链建设
运营支持,数据分析、竞品分析
基础数据的质量保障
WHY
WHY
?
?最终产品结果的正确性
?大数据应用可更好逼近理想值上限
WHAT
WHAT
?
?上游变更,例如重启重传、扩容、数据升级
?数据碎片化,例如非归一化、时钟边缘切割
?不满足场景,例如画像与数据分析的混用
数据质量是一个独立的细分行业
数据质量利器:数据剖析(DataProfiling)
数据理解与规则挖掘
数据理解与规则挖掘
数据异常诊断
数据问题排查
数据后置校验
数据监控迁移
数据归一化梳理
占比分析
占比分析
离群分析
我们很快发布了数据质量平台
利用算法作一致性拟合消除过多报警
构建闭环反馈机制
考察指标:误报率、召回率、应答率、应答时延
激励,对靠谱值班人进行物质奖励
负向激励,引入考评、引入问责
超时自动填充,加强问责
补充策略与产品机制,降低成本
TuningBoxFuzzTool
TuningBox
FuzzTool
DataGeneration
平台与应用共存
渐进放大数据量
基于模型生成与模糊数据
上线后的持续校验
渐进式验证,关注流程的衔接、问题定位与回退
复杂系统的特殊考虑
不稳定场景
?多线程并发、竞争冒险
?异步乱序
异常场景
?硬件故障,文件破损、磁头老化、磁盘坏道
?网络故障,延迟阻塞、丢包、重包、分割
?分布式异常,节点增删、状态不一致
系统环境
系统环境
?
?注意测试环境与真实场景的差异
?注意系统的极限与拐点,负载均衡、雪崩
?特殊情况,例如核心交换机压力过载
OutputVerification总结:技术与工具
Output
Verification
Input
Generation
?Fuzztool
?DGL、Model-baseddatageneration
?Metamorphictesting
Environmentand
EnvironmentandProcess
?Consistencycheck
?Dataprofiling、dataquality、dataclearance
?Prediction、alertcenter
System
?Mockforracingcondition
?Collisiontestforlargedistributedenvironment
?Robustness、fuzzinjection
?
?Tuningboxforeverysingledeveloper
?Fullcycleauto
文档评论(0)