- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据质量的四种评估标准
数据质量是保证数据应用的基础,它的评估标准主要包括四个方
面,完整性、一致性、准确性、及时性。评估数据是否达到预期设定
的质量要求,就可以通过这四个方面来进行判断。
完整性
完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可
能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。
不完整的数据所能借鉴的价值就会大大降低,也是数据质量最为基础
的一项评估标准。
数据质量的完整性比较容易去评估,一般我们可以通过数据统计
中的记录值和唯一值进行评估。例如,网站日志日访问量就是一个记
录值,平时的日访问量在1000左右,突然某一天降到100了,需要
检查一下数据是否存在缺失了。再例如,网站统计地域分布情况的每
一个地区名就是一个唯一值,我国包括了32个省和直辖市,如果统计
得到的唯一值小于32,则可以判断数据有可能存在缺失。
一致性
一致性是指数据是否遵循了统一的规范,数据集合是否保持了统
一的格式。
数据质量的一致性主要体现在数据记录的规范和数据是否符合逻
辑。规范指的是,一项数据存在它特定的格式,例如手机号码一定是
13位的数字,IP地址一定是由4个0到255间的数字加上”.”组成
的。逻辑指的是,多项数据间存在着固定的逻辑关系,例如PV一定是
大于等于UV的,跳出率一定是在0到1之间的。
一般的数据都有着标准的编码规则,对于数据记录的一致性检验
是较为简单的,只要符合标准编码规则即可,例如地区类的标准编码
格式为“北京”而不是“北京市”,我们只需将相应的唯一值映射到
标准的唯一值上就可以了。
准确性
准确性是指数据记录的信息是否存在异常或错误。和一致性不一
样,存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的
数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合
条件的数据。
数据质量的准确性可能存在于个别记录,也可能存在于整个数据
集,例如数量级记录错误。这类错误则可以使用最大值和最小值的统
计量去审核。
一般数据都符合正态分布的规律,如果一些占比少的数据存在问
题,则可以通过比较其他数量少的数据比例,来做出判断。
当然如果统计的数据异常并不显著,但依然存在着错误,这类值
的检查是最为困难的,需要通过复杂的统计分析对比找到蛛丝马迹,
这里可以借助一些数据分析工具,那么具体的数据修正方法就不在这
里介绍了。
及时性
及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时
时长。及时性对于数据分析本身要求并不高,但如果数据分析周期加
上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。
文档评论(0)