- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
AzszpClean:一种基于规则的数据清洗方案一种基于规则的数据清洗方案
一种基于规则的数据清洗方案一种基于规则的数据清洗方案
李俊奎,王元珍,李专
华中科技大学数据库与多媒体研究所,湖北武汉 (430074)
E-mail:jkltk2000@126.com
摘摘 要:要:数据清洗是提高数据集成数据质量的一个重要手段。提出了一种基于动态规则的数
摘摘 要要::
据清洗方案 AzszpClean ,这种方法对各种清洗规则进行动态编译,将数据转换和数据清洗
两者结合起来,强化清洗过程的描述能力,同时采用规则队列的方式实现批量规则匹配。实
际应用表明,AzszpClean 方法可以完成硬编码的功能,但具有更高的实现效率。
关键词关键词::数据清洗 ,动态规则编译,规则队列
关键词关键词::
中图分类号中图分类号::TP331
中图分类号中图分类号::
1. 引引 言言
引引 言言
在数据仓库构建过程中,对不同数据源数据的集成是其中的关键环节之一。而由于数据
源或者由不同的用户定义,或者存在于不同的使用环境,来源于这些数据源的数据存在许多
的不一致情形,对这些不一致/错误的数据进行处理是构建数据仓库的一个挑战。一般在数
据集成过程中,会对数据进行转换和清洗,以提高数据的质量。
数据清洗的过程是从大量原始数据中使用一系列逻辑判断,检查数据是否是符合数据仓
库的数据,从而选择做进一步保留或过滤的动作。在数据清洗前又往往需要对数据进行转换,
因此数据清洗的过程成为数据集成的一个重要步骤,同时也是其中的一个复杂的过程,迫切
需要构建自动化工具来完成。
当前对数据清洗已经有一些研究,文献[2]中提出了清洗规则的概念,指出可以使用定
义清洗规则的方式完成数据清洗;文献[3]中综述了数据清洗中用到的相关技术;文献[4]中
实现了一个领域驱动的数据质量工具;文献[6]中实现了一个基于规则引擎 Drools 的清洗方
法,清洗规则的定义需要大量 XML 配置文件的操作;文献[5]中指出,目前数据清洗的主要
问题是:对数据的检查和修复的动作或者使用硬编码,或者只是由人工来判断。在使用硬编
码的方式下,需要清洗的数据定义不发生变化,而一旦变化则需要重新修改清洗部分的代码,
重新编译,导致系统的可扩展性和灵活性较差,而且硬编码的清洗过程描述性较弱,难以应
对复杂逻辑的数据清洗;在使用人工判断的情形下,只能处理较小的数据量,不仅增加了人
们的工作量,而且质量和准确性较差,对于大规模的数据清洗则无能为力。
本文在进行 DM-Azszp(DM-Azszp 是安全智能数据整合平台的项目代号,该项目包含一
个数据集成的中间件)项目中,提出了一种AzszpClean 的数据清洗方法,集数据转换和数据
清洗为一体,采用清洗规则的方式完成,相比目前基于规则的数据清洗方案,本方案具备如
下特点:
(1)采用规则的动态编译方法。不仅具备坚实的编译理论基础,而且通过扩展编译语法
的方式,容易实现规则的扩充和修改;
(2)实现规则的零配置。与需要各种繁杂配置工具不同,规则采用的字符串脚本的方式,
可以很容易存入数据库,不需要额外进行规则配置,方便了系统的部署以及在使用不同任务
的使用;
(3)实现规则队列,通过批量规则匹配,统一了规则的匹配和校验;
基金项目基金项目: 国家发展与改革委员会 “安全智能数据整合平台开发及产业化”项目 (项目编 [2005]538 号)
基金项目基金项目
- 1 -
(4)规则解析语法已经涵盖了数据的转换,省去了传统数据清洗前的数据转换步骤,过
程更加清晰。
本文其余部分如下组织 :第 2 节给 出数据清洗的相关定义和主要过程;第
文档评论(0)