网站大量收购闲置独家精品文档,联系QQ:2885784924

数据评估 _原创精品文档.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据质量评估

一、基本简介

文献[1]指出数据是为反映客观世界而记录下来的可以鉴别的数字或符号,如数

字、文字、图形、图像、声音等。质量是一组固有特性满足要求的程度。这是

质量的广义定义。数据质量的定义也是多种多样的,有的文献将数据质量定义

为“使用的合适性”,有些文献将数据质量直接定义为一组属性(特征),如

正确性、适时性、完全性、一致性和相关性等。然而随着数据量的增大,数据

质量的问题受到越来越多的关注,这些问题主要表现在数据不正确、数据不完

整、数据不一致等方面,低劣的数据已经成为影响我们正确决策的重要因素。

针对数据质量问题的各个环节,包括数据清洗、数据整合、相似记录检测、数

据质量评估、数据质量过程控制和管理等方面,业界已经进行了大量的学术研

究和实际应用的探索,在这些环节中数据质量评估是提高数据质量的基础和前

提。

二、数据质量评估及指标

数据质量评估是对调查、汇总、整理完毕的数据的质量进行科学的、实事求是

的分析和评价。在进行数据质量评估时,要根据具体的数据质量评估需求对数

据质量评估指标进行相应的取舍。文献[2]指出数据质量评估至少应包括以下两

方面的基本评估指标:

(1)数据对用户必须是可信的,其中包括精确性、完整性、一致性、有效性、

唯一性等指标。这些指标的具体含义:

精确性:描述数据是否与其对应的客观实体的特征相一致。

完整性:描述数据是否存在缺失记录或缺失字段。

一致性:描述同一实体的同一属性的值在不同的系统或数据集中是否一致。

有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。

唯一性:描述数据是否存在重复记录。

(2)数据对用户是可用的,其中包括时间性、稳定性等指标。这些指标的含义:

时间性:描述数据是当前数据还是历史数据。

稳定性:描述数据是否稳定的,是否在其有效期内。

三、数据质量评估方法

杨青云等在文献[2]中提出数据集随应用的不同可能有不同的质量评估需求,所

以,一个数据集可以对应多个质量评估模型。在一个数据质量评估模型中,一

个数据集可以对应多个评估指标,一个评估指标可以对应多个规则:

杨将数据质量评估模型定义为一个六元组:

D:需要进行评估的数据集。

I:数据集D上需要进行评估的指标,如精确性、完整性、一致性等。

R:与评估指标相对应的规则。

W:赋予规则R的权值(大于0的整数),描述了该规则在所有规则中所占的比

重。

E:对规则R给出的期望值(介于0到100之间的实数),是在评估之前对该规则

所期望得到的结果。

S:规则R对应的最终结果(介于0到100之间的实数),是在检测该规则后所得

的结果。

在评估数据质量时,首先确定要评估的数据集的评估指标,其次根据要评估的

指标制定评估规则,再次根据规则R的赋予权值W,给出规则R的期望E,得到该

规则下的检测结果S,最后当数据质量评估模型构造完成并计算了每条规则的结

果之后,便可以利用该模型计算每个数据集的数据质量结果。

RRWER

假设数据集D对应的规则集为i,规则i的权值为i,期望值为i,i计算结果

S

分别为i,由此计算数据集D的数据质量:

n

WS

SAiii

n

W

数据质量绝对量化值:ii

n

WE

SRiii

n

W

数据质量相对量化值:ii

SA是规则集R所得结果得分的加权平均值,它反映了数据集D的真实的数据质量

状况。SR反映了规则集R下所期望结果得分的加权平均值,如果SA大于SR说明数

据质量比预期的好,若小于则数据质量比预期的差。

凌云等在文献[3

文档评论(0)

150****0174 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档