- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据质量评估
一、基本简介
文献[1]指出数据是为反映客观世界而记录下来的可以鉴别的数字或符号,如数
字、文字、图形、图像、声音等。质量是一组固有特性满足要求的程度。这是
质量的广义定义。数据质量的定义也是多种多样的,有的文献将数据质量定义
为“使用的合适性”,有些文献将数据质量直接定义为一组属性(特征),如
正确性、适时性、完全性、一致性和相关性等。然而随着数据量的增大,数据
质量的问题受到越来越多的关注,这些问题主要表现在数据不正确、数据不完
整、数据不一致等方面,低劣的数据已经成为影响我们正确决策的重要因素。
针对数据质量问题的各个环节,包括数据清洗、数据整合、相似记录检测、数
据质量评估、数据质量过程控制和管理等方面,业界已经进行了大量的学术研
究和实际应用的探索,在这些环节中数据质量评估是提高数据质量的基础和前
提。
二、数据质量评估及指标
数据质量评估是对调查、汇总、整理完毕的数据的质量进行科学的、实事求是
的分析和评价。在进行数据质量评估时,要根据具体的数据质量评估需求对数
据质量评估指标进行相应的取舍。文献[2]指出数据质量评估至少应包括以下两
方面的基本评估指标:
(1)数据对用户必须是可信的,其中包括精确性、完整性、一致性、有效性、
唯一性等指标。这些指标的具体含义:
精确性:描述数据是否与其对应的客观实体的特征相一致。
完整性:描述数据是否存在缺失记录或缺失字段。
一致性:描述同一实体的同一属性的值在不同的系统或数据集中是否一致。
有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。
唯一性:描述数据是否存在重复记录。
(2)数据对用户是可用的,其中包括时间性、稳定性等指标。这些指标的含义:
时间性:描述数据是当前数据还是历史数据。
稳定性:描述数据是否稳定的,是否在其有效期内。
三、数据质量评估方法
杨青云等在文献[2]中提出数据集随应用的不同可能有不同的质量评估需求,所
以,一个数据集可以对应多个质量评估模型。在一个数据质量评估模型中,一
个数据集可以对应多个评估指标,一个评估指标可以对应多个规则:
杨将数据质量评估模型定义为一个六元组:
D:需要进行评估的数据集。
I:数据集D上需要进行评估的指标,如精确性、完整性、一致性等。
R:与评估指标相对应的规则。
W:赋予规则R的权值(大于0的整数),描述了该规则在所有规则中所占的比
重。
E:对规则R给出的期望值(介于0到100之间的实数),是在评估之前对该规则
所期望得到的结果。
S:规则R对应的最终结果(介于0到100之间的实数),是在检测该规则后所得
的结果。
在评估数据质量时,首先确定要评估的数据集的评估指标,其次根据要评估的
指标制定评估规则,再次根据规则R的赋予权值W,给出规则R的期望E,得到该
规则下的检测结果S,最后当数据质量评估模型构造完成并计算了每条规则的结
果之后,便可以利用该模型计算每个数据集的数据质量结果。
RRWER
假设数据集D对应的规则集为i,规则i的权值为i,期望值为i,i计算结果
S
分别为i,由此计算数据集D的数据质量:
n
WS
SAiii
n
W
数据质量绝对量化值:ii
n
WE
SRiii
n
W
数据质量相对量化值:ii
SA是规则集R所得结果得分的加权平均值,它反映了数据集D的真实的数据质量
状况。SR反映了规则集R下所期望结果得分的加权平均值,如果SA大于SR说明数
据质量比预期的好,若小于则数据质量比预期的差。
凌云等在文献[3
文档评论(0)