- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据清理关键技术及其软件平台的研究与应用解析
数据清理关键技术及其软件平台的研究与应用
第一章 绪 论
1.1 引 言
我国目前正在大力推广信息技术,实施各行各业的信息化工程。随着信息化建设的不断深入,企事业单位积累了大量的电子数据,这些数据非常重要。为了使信息系统中的数据更准确、一致,能支持正确决策,就要求所管理的数据准确、可靠。因此,企业数据质量的管理正在获得越来越多的关注。但是,由于各种原因,如数据录入错误、不同来源数据引起的不同表示方法、数据间的不一致等,导致企业现有系统数据库中存在这样或那样的脏数据,主要表现为:不正确的字段值、重复的记录、拼写问题、不合法值、空值、不一致值、缩写词的不同,不遵循引用完整性等。根据“进去的是垃圾,出来的也是垃圾(garbage in,garbage out)”这条原理,若不进行清理,这些脏数据会扭曲从数据中获得的信息,影响信息系统的运行效果,也为企业构建数据仓库、建立决策支持系统、应用商务智能带来隐患。显见,数据清理问题的重要性是不言而喻的。另外,从市场上众多的相关产品,也可以明白这一点。然而,由于数据清理本身的一些特点,比如:
数据清理是具体应用问题,经常要具体问题具体分析,难于归纳出通用方法;
数据清理问题的数学建模困难。
因此,目前在学术界,数据清理并没有得到足够的关注,针对这方面的研究也少,有些人甚至认为数据清理是一个需要大量劳动力的过程,而且往往过于依赖特定应用领域。其实不然,对于数据清理有很多内容值得研究,比如:
在数据清理的研究中,尽管检测相似重复记录受到最多的关注,采取了许多措施,但检测效率与检测精度并不令人满意。特别是在数据量非常大时,耗时太多,有待于更好的方法。作者在文献中做了一些这方面工作,在相似重复记录检测中采用长度过滤方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了相似重复记录的检测效率;
在数据清理的相关研究中,数据清理整体框架的研究正逐渐成为研究的热点。对此,作者在文献[7]中提出一个可扩展的数据清理软件平台,该软件平台具有开放的规则库和算法库,通过在规则库中定义清理规则以及从算法库中选择合适的清理算法,可使该软件平台适用于不同的数据源,从而使其具有较强的通用性和适应性;
目前,对数据清理的研究主要集中在结构化数据上。由于半结构化数据 XML(Extensible Markup Language,可扩展标识语言)的快速增长以及广泛应用,其在数据清理中越来越重要。为了使 XML 数据源中的数据更准确、一致,如何清理这些 XML 相似重复数据,都是值得研究的,作者在文献[8]中做了一些这方面工作;
另外,关于数据清理在一些业务领域中的应用也是值得研究,作者在文献[9]、[10]中做了一些这方面的工作。
当然,对任何现实世界中的数据源,人工完成数据清理是没有问题的。一些单位每年要花费上百万元来查找数据错误,手工清理是劳累的、费时的和易出错的。对于少量数据的数据源来说,采用人工清理就可以了,但对于规模较大的数据源,手工清理是不可行的,必须借助信息技术,采用自动清理方法。当然,在自动清理的过程中,仍需要人来参与,我们要做的就是尽可能减少人的参与。
总之,在信息化建设过程中,数据清理是一个非常重要,而且较新的课题,有很多东西值得我们去研究。作为全文的引言,本章主要介绍数据质量的相关概念、数据清理的原理、数据清理软件平台的意义以及本文的内容安排。
1.2 数据质量
1.2.1 数据质量概念及分类
目前,数据质量问题已引起广泛的关注。什么是数据质量呢?数据质量问题并不仅仅是指数据错误。文献[22]把数据质量定义为数据的一致性(consistency)、正确性(correctness)、完整性(completeness)和最小性(minimality)这 4 个指标在信息系统中得到满足的程度,文献[23]则把“适合使用”作为衡量数据质量的初步标准。
一般说来,评价数据质量最主要的几个指标是:
准确性(Accuracy)
准确性是指数据源中实际数据值与假定正确数据值的一致程度;
完整性(Completeness)
完整性是指数据源中需要数值的字段中无值缺失的程度;
一致性(Consistency)
一致性是指数据源中数据对一组约束的满足程度;
唯一性(Uniqueness)
唯一性是指数据源中记录以及编码是否唯一;
适时性(Timeliness)
适时性是指在所要求的或指定的时间提供一个或多个数据项的程度;
有效性(Validity)
有效性是指维护的数据足够严格以满足分类准则的接受要求。
当建立一个信息系统的时候,即使进行了良好的设计和规划,也不能保证在所有情况下,信息系统中数据的质量都能满足用户的要求。用户录入错误、企业合并以及企业环境随着时间的推移而改变,这些都会影响所存放数据的质量。信息系统中可能存在
文档评论(0)