- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
美河学习在线 仅学习参考
ETL 中的数据清洗设计
董金新 张虹 杨山鹏
聊城大学 中国矿业大学
摘要 为提高数据仓库数据质量,需要在ETL 过程进行数据清洗。本文首先提出了ETL 过程进行数据清洗应解
决的问题,然后通过分析现有的ETL 处理方式说明应采用数据库中的ETL 处理,介绍了数据质量和数据清洗的原理
并提出了数据清洗在ETL 中的应用模型,最后通过实例说明数据清洗的具体实现。
关键词 数据仓库 ETL 数据清洗
1 前言 载、转换,即通常所说的ELT 。在实际数据仓库系统中
ETL 即数据抽取(Extract )、转换(Transform )、装 经常使用这种方式。这种方式的优点是为抽取出的数据
载(Load )的过程。它是构建数据仓库的重要环节。数 首先提供一个缓冲以便于进行复杂的转换,减轻了ETL
据仓库是面向主题的、集成的、稳定的且随时间不断变 进程的复杂度。但是这种ETL 处理的缺点有:(a)在段表
[1]
化的数据集合,用以支持经营管理中的决策制定过程 。 中存贮中间结果和来自数据库中源系统的原始数据时,
数据仓库主要用于决策分析,为领导者提供决策支持信 转换过程将被中断。(b)大多数转换可以使用类 SQL 的
息。数据仓库系统中有可能存在着大量的脏数据,引起的 数据库功能来解决,但它们可能不是处理所有的ETL 问
主要原因有:滥用缩写词、惯用语、数据输入错误、重 题的最优语言。
复记录、丢失值、拼写变化、不同的计量单位和过时的 (3 )数据库中的ETL处理
编码等。即便是一个设计和规划良好的数据仓库系统, 数据库中的ETL处理方式使用数据库作为完整的数
如果其中存在着大量的脏数据,那么这个系统也是没有 据转换引擎,在转换过程中也不使用段。数据库中的ETL
任何意义的,因为“垃圾进,垃圾出”(garbage in, garbage 处理具有数据库段区域中的ETL处理的优点,同时又充
out ),系统根本就不可能为决策分析系统提供任何支持。 分利用了数据库的数据转换引擎功能,但是这要求数据
为了清除脏数据,必须在数据仓库系统中进行数据清洗。 库必须完全具有这种转换引擎功能。目前的主流数据库
数据清洗(data cleansing/data cleaning/data scrubing ) 产品Oracle 9i[5]等可以提供这种功能。
[2]
是一个减少错误和不一致性、解决对象识别的过程 。 综上分析三种ETL处理方式,数据库外部的ETL处
[2][3][4][6] [8][9][10]
目前有很多数据清洗研究 和ETL 研究 ,但 理可扩展性差,不适合复杂的数据清洗处理,数据库段
是如何在ETL 过程中进行有效的数据清洗,此方面研究 区域中的ETL处理可以进行复杂的数据清洗,而数据库
不多。笔者认为这包括三方面的内容:(1)ETL 处理方 中的ETL处理具有数据库段区域ETL处理的优点,又利
式的选择(2 )数据清洗的原理及在ETL 中的应用模型 用了数据库的转换引擎功能。所以为了进行有效的数据
(3 )数据清洗的具体实现过程。 清洗,应该使用数据库中的ETL处理。
2 ETL 处理方式 3 数据清洗的原理及在ETL 中的应用模型
数据抽取负责完成从数据源找到并取出当前主题 数据清洗的目的是保证数据仓库数据质量。
所需的那部分数据,由于数据仓库中各个主题中
文档评论(0)