数据仓库中etl技术的研究与改进 - 甘肃科技.pdf

数据仓库中etl技术的研究与改进 - 甘肃科技.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库中etl技术的研究与改进 - 甘肃科技

第28卷 第19期 甘肃科技 Vol28 No19 2012年10月 GansuScienceandTechnology Oct 2012 数据仓库中ETL技术的研究与改进 白 果,贾玉文 (辽宁师范大学 管理学院,辽宁 大连 116000) 摘 要:ETL是数据仓库构建中的核心环节,通过对传统的ETL架构体系的介绍,从数据抽取、数据转换等方面对 ETL过程进行了改进,让数据转换环节在数据抽取和数据清洗加载的过程中同时进行,并增加了一个临时存储区,以 此来缓解在数据抽取和转换过程中由于数据量太大或过于复杂而引起的数据拥堵和冗余的现象。通过改进后的 ETL系统,可以提高整个数据仓库运行的效率,大大改善运行速度,提高了数据仓库的数据质量。 关键词:ETL;数据仓库;数据转换;数据清洗;数据装载;异构数据源 中图分类号:TP311   信息在企事业单位的建设中起着至关重要的作 取、识别、整理、规范和存储等进行的一系列相关操 用,如何快速有效的获取对企业最有利的信息,并在 作,并在此基础上实现高效的查询和比较,从而满足 大量纷繁复杂的信息资源中提取对企业发展有前瞻 我们相应的在数据挖掘和知识发现等方面的需求。 性的部分,将逐渐成为发展的必要。近年来,随着经 其主要目的就是实现多种异构数据源形式和内容的 济的发展,各行各业在信息化建设中,积累了大量纷 统一,是数据集成的一个工具,为整个数据仓库、数 繁复杂的数据,包括形式各异的数据表,数据库,以 据挖掘和知识服务体系做准备,并以最小的代价将 及各种数据文件等,由于异构数据源种类复杂,企业 对日常业务操作中的各种异构数据源尽可能地转化 急需建设自己的数据仓库,进行生产经营决策和行 为业务工作者所需的数据,以提高数据的质量,针对 业等方面的宏观调控,来更好的指引自身的建设。 数据仓库而存储有效数据。 由于异构数据源种类多而且复杂,数据源形式多种 数据抽取是建设数据仓库的第一步。由于数据 多样,而且获取数据的途径不同,必然会引起数据的 仓库所需信息量非常大,这就需要从不同的数据平 千差万别,以及各种形式的脏数据的产生,因此在保 台(包括各种数据源表、数据库和形式各异的数据 证数据源的准确、可靠统一性,数据质量的可提取性 文件等)上进行完全性或差异性的抽取。数据来源 问题等方面就显得比较必要。ETL的建设在整个数 广泛,必然存在各种各样形式上或内容上不完全或 据仓库建设中起着至关重要的作用,是整个数据仓 错误的数据,即所谓的“脏数据”。在数据仓库中为 库建设的灵魂。ETL流程的实现同时也是最复杂的 了保证数据内容的准确性和数据格式的一致性,必 工作之一,ETL规则的设计和实施的工作量要占到 然要对这些数据进行一致性的控制和清洗,即通常 整个数据库项目建设的70%以上。 我们所说的数据清洗阶段。数据转换指对不同数据 分区中经过清洗后的数据进行有选择性的组合和转 1 ETL的基本实现过程及传统体系结 换,如数据的格式化,关键数据的重新构建和数据总 构 结,数据定位等,从而得到一致性的符合用户要求的 11 ETL的基本概念及实现过程 数据;数据装载指将经过数据清洗后得到的一致性 ETL指对数据所进行的抽取(Extral),转换 数据经过部分选择装载到指定的数据表或者目标数 (Tranform),清洗(Cleaing)和装载(Loading)的过

您可能关注的文档

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档