构建数据仓库过程中数据清洗研究.doc

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
构建数据仓库过程中数据清洗研究

构建数据仓库过程中数据清洗研究   摘 要:文章对构建数据仓库中的数据清洗研究现状进行了论述。介绍了脏数据的类型与出现原因、数据清洗在国内外的研究现状、定义和对象,重点阐述了属性级异常数据和记录级异常数据的检测与处理算法;总结当前数据清洗研究的不足,并对今后数据清洗的研究进行展望。   关键词:数据清洗 脏数据 异常数据检测 重复记录检测   中图分类号: G302;TP391 文献标识码: A 文章编号: 1003-6938(2013)05-0022-07   1 引言   随着计算机信息系统在各行各业的普及,产生了大量的数据,怎样对这些数据进行有效的组织是当前研究的热点之一。数据仓库作为一种有效的数据组织方式,得到了广泛的应用。数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程[1]。数据仓库不仅是一种语义一致的数据存储,充当决策支持数据模型的物理实现,并存放企业战略决策所需要的信息,也是一种体系结构,将异构数据源中的数据集成在一起而构建,为企业的决策者提供知识支持。   利用数据仓库对大量数据进行有效的组织,避免出现”garbage in,garbage out”的情况[2],则必须保证数据仓库中的数据的准确性、一致性、完整性、时效性、可靠性和可解释性[3],即数据是高质量的数据,才能使OLAP分析或挖掘的结果具有较高的精确性和可信度。但由于种种原因,现实中的数据都是脏数据,要提高数据的质量,不仅要在事前对数据进行严格定义与约束,而且还要在事后使用特定算法对数据进行检测与处理[4]。   国外对数据清洗的研究起源于上世纪50年代的美国,是从纠正全美社会保险号开始[5],主要是处理西文数据,其研究主要集中以下几个方面:(1)异常数据的检测与处理;(2)数据重复的检测与处理;(3)面向特定领域的数据清洗;(4)与领域无关的数据清洗;(5)数据的集成。数据清洗也必须考虑数据集成问题,即将数据源中的结构和数据映射到目标结构与域中,而数据的多义性和结构对数据集成提出了巨大的挑战,数据集成包括:实体识别、冗余与相关分析、元组重组和数据值冲突的检测与处理[3]。国外关于??文的数据清洗的研究较少,且由于语种的差异性,能够适应英文数据清洗的方法不一定能适合中文数据清洗。比较成熟的方案有IBM公司提出的基于InfoSphere Quality Stage的中文数据清洗[6-7]。   国内对于数据清洗的研究较晚,并且针对中文的数据清洗研究的成果也不多。当前国内对数据清洗的研究主要集中在改进西文算法应用到中文领域,取得了一些成果。复旦大学的周傲英教授团队[8]、沈阳航空工业学院的夏秀峰教授[9]、李蜀瑜博士[10]、东南大学的董逸生教授的团队[11]均对数据重复问题进行了研究;北京大学的杨冬青教授的团队[12]、武汉理工大学的袁景凌副教授[13]、东南大学的董逸生教授团队[14]、复旦大学的周傲英教授团队[15]等对数据的集成问题进行了研究;中科院的刘清[16]、山东理工大学的王晓原教授[17]、西安理工大学张璟教授[18]、上海宝钢公司的王永红[19]、东北大学的于戈教授团队[20-22]、西北大学的李战怀教授团队[23]、辽宁大学的宋宝燕教授团队[24]、贵州大学的李少波教授团队[25]、沈阳航空航天大学的夏秀峰教授团队[26]均对面向特定领域的数据清洗进行了研究。   本文将对脏数据的类型与出现原因进行总结,对数据清洗的国内外研究现状进行分析,提出数据清洗的定义与对象,重点阐述属性级异常数据的检测与处理的算法、记录级重复数据的检测与处理的算法,并对算法的优缺点及适用范围做简要说明,并指出当前数据清洗技术的研究不足以及未来研究的方向。   2 脏数据的类型与出现原因   脏数据的类型有许多种类,且每种脏数据出现的原因也不一样,本文从单数据源的脏数据类型与出现原因和多数据源的脏数据类型与出现原因进行描述,根据复旦大学周傲英教授对脏数据的分类,将脏数据分为单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题四种类型[27],表1列出了“脏数据”类型、实例与出现原因。   如表1所示,“脏数据”的类型有很多种,在实例层来说,单数据源的“脏数据”就是不完整数据、不正确数据、不可理解数据、过时数据、数据重复等,单数据源的数据清洗主要是指在属性上对数据进行检测与处理;多数据源的“脏数据”更为复杂,主要指大量的重复数据、数据冲突,多数据源的数据清洗主要指是对重复数据的检测与处理、解决数据冗余和数据冲突问题。   3 数据清洗的定义与对象   3.1数据清洗的定义   数据清洗不仅应用在数据仓库中,也应用在数据挖掘和全面数据质量管理领域,不同的领域中数据清洗的

文档评论(0)

189****7685 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档