数据质量和数据清洗研究综述.PDFVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据质量和数据清洗研究综述

1000-9825/2002/13(11)2076-07 ?2002 Journal of Software 软 件 学 报 Vol.13, No.11 数据质量和数据清洗研究综述 郭志懋, 周傲英 (复旦大学 计算机科学与工程系,上海 200433); (复旦大学 智能信息处理开放实验室,上海 200433) E-mail: zmguo@ 摘要: 对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清 洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结 合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望. 关 键 词: 数据质量;数据清洗;数据集成;相似重复记录;数据清洗框架 中图法分类号: TP311 文献标识码: A 在当今时代,企业信息化的要求越来越迫切,其中一个很重要的方面就是企业数据的管理.根据“进去的是 垃圾,出来的也是垃圾(garbage in, garbage out)”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有错 误,准确地反映企业的实际情况.因此,企业数据质量的管理正在获得越来越多的关注.数据质量管理牵涉到的 方面很多,本文主要从数据集成和数据清洗的角度加以探讨. 最初,研究人员提出用元数据来表示数据质量以方便数据质量管理.在研究数据集成的过程中,很多工作的 重点放在如何解决模式冲突上.其实,在数据实例层次上同样有很多数据质量问题发生.数据清洗过程的目的就 是要解决这些“脏数据(dirty data)”的问题.数据质量问题的一种情况是一个现实实体可能由多个不完全相同的 记录来表示,这样的记录称为相似重复记录(duplicate record).为了检测并合并这些相似重复记录,研究人员提出 了很多记录匹配算法.近年来,研究人员在数据清洗系统的框架、模型和语言以及如何利用专家知识、如何结 合数据清洗过程和数据挖掘方法等方面做了很多工作.本文对与数据质量相关的将来可能的研究主题进行了 展望. 1 研究背景 当建立一个信息系统的时候,即使进行了良好的设计和规划,也不能保证在所有情况下,所存放数据的质量 都能满足用户的要求.用户录入错误、企业合并以及企业环境随着时间的推移而改变,这些都会影响所存放数 据的质量. 因此, 有必要用元数据来表示数据质量[1,2]. 文献[1] 以形式化的方法定义了数据的一致性 (consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality),而数据质量被定义为这 4 个指 标在信息系统中得到满足的程度.文献[2]提出了数据工程中数据质量的需求分析和模型,认为存在很多候选的 数据质量衡量指标,用户应根据应用的需求选择其中一部分.指标分为两类:数据质量指示器和数据质量参数. 前者是客观的信息,比如数据的收集时间,来源等,而后者是主观性的,比如数据来源的可信度(credibility)、数据 收稿日期: 2002-03-12; 修改日期: 2002-07-02 基金项目: 国家自然科学基金资助项目;霍英东教育基金青年教师基金资助项目;教育部跨世纪优秀人才培养计划 资助项目 作者简介: 郭志懋(1978-),男,湖南宁乡人,博士生,主要研究领域为数据清洗,XML 数据发布;周傲英(1965-),男,安徽宣城人, 博士,教授,博士生导师,主要研究领域为数据挖掘,数据清洗,XML 数据管理,P2P 对等计算. 郭志懋 等:数据质量和数据清洗研究综述 2077 的

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8016031115000003

1亿VIP精品文档

相关文档