网站大量收购独家精品文档,联系QQ:2885784924

基于数据挖掘的数据质量分析的研究.pdfVIP

基于数据挖掘的数据质量分析的研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据挖掘的数据质量分析研究‘ 于波王宏鼎唐世渭童云海 北京大学信息科学技术学院,北京100871 摘要本文对基于数据挖掘的数据质量分析研究进行了综述。首先介绍了数据质量的定义、分类 和相关研究,然后具体分析了基于数据挖掘的数据质量分析的提出,研究现状、分析框架和步骤,最 后对将来的研究问题进行了展望。 关键词数据质量数据挖掘隐藏规则 1 引 言 Flux 在信息化时代,数据是企业生产和运行的基础,其质量好坏直接影响着企业的生存和效益。据Data 误的数据导致错误的决策,因此,在进行信息系统建设时,企业越来越重视数据质量问题。 数据质量分析是指进行数据集成时,发现荠解决质量问题的过程,也叫做数据清洗,如对象识别和合 并、孤立点检测和处理、语义冲突检测和处理等。最初,研究人员主要是在领域知识指导下,结合元数据、 统计学、排序等技术进行数据质量分析。但是很多质量问题隐藏在数据之中,不易被这些方法发现。由于 数据挖掘在发现隐藏模式上的突出特点,近来利用数据挖掘方法进行数据质量分析逐渐成为研究重点。本 文将对该领域的研究现状进行综述,并对未来研究问题进行展望。 2数据质量及其相关研究 2.1数据质量定义及其问题分类 随着企业数据规模和信息需求的日渐扩大,企业的生产经营活动越来越依赖于高质量的数据。但由’于 技术、时间、标准和需求方面的变化,目前的信息系统都存在一些质量问题,如缺少完整性约束、缺失数 据、拼写与输入错误、计算错误等。尤其在数据仓库、联邦数据库等涉及数据集成的系统建设中,数据质 最问题更为突出,如存在大量的相似重复记录、模式冲突和语义冲突等。 源系统、命名冲突、类型冲突、约束冲突、结构冲突等。实例层问题是指在基础数据上存在的质量问题, 如缺失值、可疑数据、错误拼写、相似重复记录等。其中实例层问题最为复杂,本文关注更多的是此方面 的问题。 河南许昌人,博士研究生,主要研究方向;数据库与信息系统;唐世渭(1939--),男,浙江人,博士生导师,主要研究方向 数据库与信息系统;童云海(1971--),男,浙江人。讲师。主要研究方向为数据库与信息系统· 2.2相关研究 为了解决数据质量问题,研究人员提出了很多数据质量分析方法。例如,利用回归分析和统计学方法 来预测缺失值”1,利用基于密度、距离的方法或业务规则来检测可疑数据或奇异点|41,利用n.gram[”、 sorted-nefghborhood…、domain-independent Soft、Harte—Hanks 此外,也有不少公司开发了质量分析工具,如QM Technologies、V酊ityTechnology等。 但由于这些工具只提供有限的清洗功能或针对特定领域,不具有较好的通用性,因此近些年有些研究人员 开始进行可扩展的数据清洗框架研究,文献[8】提出了一个数据清洗框架,实现了逻辑规范层和物理实现层 的分离,文献【9】提出了一个交互式系统框架,用户能够以直观的图形化方式逐步建立起整个数据转化过程。 不过,这些研究和分析方法基本上都严重依赖于业务知识。在很多情况下,实际工作得不到足够的业 务支持,而且一些质量问题隐藏在数据之中,不易直接发现,因此需要寻找更加有效的方法。由于数据挖 掘在隐藏模式发现上的突出特点,利用数据挖掘进行数据质量分析逐渐成为该领域的研究重点。 3基于数据挖掘的数据质量分析 3.1定义与提出背景 基于数据挖掘的数据质量分析,是指应用数据挖掘技术进行数据质量分析和改进,其目的是为了检测、 量化、解释和校正大规模数据库中存在的数据质量问题,也叫做数据质量挖掘(dam quality 据审计(data auditing)II“。其提出主要有以下几方面原因: (1)数据挖掘可以解决很多数据质量问题,如利用预测方法进行缺失值分析,利用聚类和分类方法进 行奇异点检测,利用

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档