数据质量的四种标准详细解说.docVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据质量的四种标准详细解说 编辑整理: 编辑:suifeng 文章来源:最好网址导航 数据质量是确保数据运用的根底,它的评价规范首要包含四个方面,完整性、一致性、精确性、及时性。评价数据能否到达预期设定的质量需求,就能够经过这四个方面来进行判别。 完整性指的是数据信息能否存在缺失的状况,数据缺失的状况能够是整个数据记载缺失,也能够是数据中某个字段信息的记载缺失。不完整的数据所能学习的价值就会大大下降,也是数据质量最为根底的一项评价规范。 数据质量的完整性比拟简略去评价,通常咱们能够经过数据计算中的记载值和仅有值进行评价。例如,网站日志日访问量就是一个记载值,平常的日访问量在 1000 左右,俄然某一天降到100了,需求检查一下数据能否存在缺失了。再例如,网站计算地域散布状况的每一个区域名就是一个仅有值,我国包含了32个省和直辖 市,若是计算得到的仅有值小于32,则能够判别数据有能够存在缺失。 一致性是指数据能否遵从了一致的规范,数据调集能否坚持了一致的格局。 数据质量的一致性首要体现在数据记载的规范和数据能否契合逻辑。规范指的是,一项数据存在它特定的格局,例如手机号码必定是13位的数字,IP地址必定 是由 4个0到255间的数字加上”.”组成的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV必定是大于等于UV的,跳出率必定是在0到1之间的。 通常的数据都有着规范的编码规矩,关于数据记载的一致性查验是较为简略的,只需契合规范编码规矩即可,例如区域类的规范编码格局为“北京”而不是“北京市”,咱们只需将相应的仅有值映射到规范的仅有值上就能够了。 精确性是指数据记载的信息能否存在反常或过错。和一致性不一样,存在精确性难题的数据不仅仅仅仅规矩上的不一致。最为常见的数据精确性过错就如乱码。其次,反常的大或许小的数据也是不契合条件的数据。 数据质量的精确性能够存在于单个记载,也能够存在于整个数据集,例如数量级记载过错。这类过错则能够运用最大值和最小值的计算量去审阅。 通常数据都契合正态散布的规则,若是一些占比少的数据存在难题,则能够经过比拟其他数量少的数据份额,来做出判别。 当然若是计算的数据反常并不明显,但仍然存在着过错,这类值的检查是最为艰难的,需求经过杂乱的计算剖析比照找到蛛丝马迹,这里能够凭借一些数据剖析东西,那么详细的数据批改办法就不在这里剖析了。 最好网址导航 及时性是指数据从发生到能够检查的时刻距离,也叫数据的延时时长。及时性关于数据剖析自身需求并不高,但若是数据剖析周期加上数据树立的时刻过长,就能够致使剖析得出的定论失去了学习含义。

文档评论(0)

KWZoJLfpjN + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档