百度大数据质量保障方案探索.docxVIP

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

百度大数据质量保障方案探索

2014.11,钱承君

自我介绍

大型分布式系统

存储体系大数据

存储体系

分布式计算

机器学习

质量保障体系建设

架构师管理者

百度的大数据在做什么

“BIGDATA”

isliketeenagesex

everyonetalksaboutit,nobody

reallyknowshowtodoit,everyonethinkseveryoneelseisdoingit,soeveryoneclaimstheyaredoingit…

当传统测试遭遇大数据

对系统或系统原件在特定条件下的运行结果进行观察或记录,并对系统和原件进行某些方面特性的评价

–IEEE对“测试”的定义

数据测试传统测试

数据测试

传统测试

百度地图的案例

百度搜索的案例

图片搜索的案例

启动这一项目的背景

年度平衡记分卡(BSC)关键行动项

形成体系快速复用定义数据质量标准项目的总体目标

形成体系快速复用

定义数据质量标准

当传统测试团队遇到数据项目,怎么办?

我们希望提供“数据测试体系建设”的解决方案

提供实施案例参照

复杂算法复杂数据流超大数据量基础架构大数据带来的测试挑战

复杂算法

复杂数据流

超大数据量

基础架构

无验收标准

平台与应用

算法测试的常用手段

常规功能测试

常规功能测试

?

?功能测试,数据驱动、蜕变

?异常测试,容错、抗压、死锁、健壮性

?算法特性,例如线性递增性

非功能性测试

?基本指标,例如吞吐、并发、时延

?伸缩性,例如算法复杂度、性能拐点

?资源损耗,计算密集型还是存储密集型

其他常用方法

其他常用方法

?同类算法的交错验证

?同类算法的交错验证

?引入类似真实场景,对算法系统端对端测试

?建设获取大数据样本的能力

无验收标准的大数据应用

大数据应用的质量保障

推荐、预测、数据挖掘、机器学习等

质量标准:相关性、重复度、品类覆盖、排序

持续评估:低成本例行评估,采样、众包

小流量实验支持

研发过程支持,全流程工具链建设

运营支持,数据分析、竞品分析

基础数据的质量保障

WHY

WHY

?

?最终产品结果的正确性

?大数据应用可更好逼近理想值上限

WHAT

WHAT

?

?上游变更,例如重启重传、扩容、数据升级

?数据碎片化,例如非归一化、时钟边缘切割

?不满足场景,例如画像与数据分析的混用

数据质量是一个独立的细分行业

数据质量利器:数据剖析(DataProfiling)

数据理解与规则挖掘

数据理解与规则挖掘

数据异常诊断

数据问题排查

数据后置校验

数据监控迁移

数据归一化梳理

占比分析

占比分析

离群分析

我们很快发布了数据质量平台

利用算法作一致性拟合消除过多报警

构建闭环反馈机制

考察指标:误报率、召回率、应答率、应答时延

激励,对靠谱值班人进行物质奖励

负向激励,引入考评、引入问责

超时自动填充,加强问责

补充策略与产品机制,降低成本

TuningBoxFuzzTool

TuningBox

FuzzTool

DataGeneration

平台与应用共存

渐进放大数据量

基于模型生成与模糊数据

上线后的持续校验

渐进式验证,关注流程的衔接、问题定位与回退

复杂系统的特殊考虑

不稳定场景

?多线程并发、竞争冒险

?异步乱序

异常场景

?硬件故障,文件破损、磁头老化、磁盘坏道

?网络故障,延迟阻塞、丢包、重包、分割

?分布式异常,节点增删、状态不一致

系统环境

系统环境

?

?注意测试环境与真实场景的差异

?注意系统的极限与拐点,负载均衡、雪崩

?特殊情况,例如核心交换机压力过载

OutputVerification总结:技术与工具

Output

Verification

Input

Generation

?Fuzztool

?DGL、Model-baseddatageneration

?Metamorphictesting

Environmentand

EnvironmentandProcess

?Consistencycheck

?Dataprofiling、dataquality、dataclearance

?Prediction、alertcenter

System

?Mockforracingcondition

?Collisiontestforlargedistributedenvironment

?Robustness、fuzzinjection

?

?Tuningboxforeverysingledeveloper

?Fullcycleauto

文档评论(0)

137****3135 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档