- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.前言
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。 ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider
ETL是数据仓库中的非常重要的一环。
1.1简述
它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。ETL体系结构,它体现了主流ETL产品框架的主要组成部分。ETL是指从源系统中提取数据,转换数据为一个标准的格式,并加载数据到目标数据存储区,通常是数据仓库
2.发展趋势
ETL系统一般不会单独作为一个项目来做,大多与数据仓库、决策支持等系统一起作为支持系统完成。
1.发展背景
随着信息化进程的推进,政府机构和企事业单位对数据资源整合的需求越来越明显,越来越多的单位将数据整合纳入到下一步的重点规划中。但面对分散在不同地区、种类繁多的异构数据库进行数据整合并非易事,首先要解决冗余、歧义等脏数据的清洗问题,仅靠手工进行不但费时费力,质量也难以保证;其次,数据的定期更新也存在困难。如何实现业务系统数据整合,是摆在政府机构、企事业单位面前进一步提升信息化程度的最大难题。ETL数据转换系统为数据整合提供了令人满意的解决方案。它可以批量完成数据抽取(Extract)、清洗(Cleaning)、转换(Transformation)、装载(Loading)等任务,不但满足了用户对种类繁多的异构数据库进行整合的需求,同时可以通过增量方式进行数据的后期更新,一体化的解决了数据整合过程中遇到的种种困难。
2.发展环境
目前市场上主流的国外ETL工具可以分为两大类,一类是专业的ETL厂商的产品,如Ascential DataStageXE、Sagent Solution、Informatica,这类产品一般都有较完善的体系结构和久经考验的产品,产品的功能之复杂和详尽往往能令初次接触的人膛目,但其高昂的价格也会使一般用户望而却步。另一类是整体数据仓库方案供应商或数据库提供商,如Oracle Warehouse Builder、IBM Warehouse Manager等,他们在提供数据仓库存储、设计、展现工具的同时也提供相应的ETL工具,这类产品一般对自己厂商的相关产品有很好的支持并能发挥出最大效率,但结构相对封闭对其他厂商产品的支持也有限。
3.国内具体情况
国内同类软件开发相对落后,较成熟的异构数据转换产品非常少,软件的可操作性较差,在功能、性能上都不够理想。
国内企事业单位在进行BI项目建设的时候,往往雷声大雨点小或者只是有钱单位的游戏,难道中小企业就不能做BI来为自己的决策提供帮助吗?正宗的BI产品或者方案实在是贵,搞得众老板却步不前,或者干脆暗骂一声掉头就走。
虽然这样,信息化还是要做,于是各种各样的小系统如雨后春笋般冒出来,各有所长、各不相同、各执一词,却又如同盲人摸象,各家的优点结合起来差不多能凑个完整的解决方案!
3.ETL技术现状
随着企业信息化建设的发展,巨大的投资为企业建立了众多的信息系统,以帮助企业进行内外部业务的处理和管理工作。但是随着信息系统的增加,各自孤立工作的信息系统将会造成大量的冗余数据和业务人员的重复劳动。企业应用集成(EAI,Enterprise Application Integration)应运而生。EAI通过建立底层数据交换平台来联系横贯整个企业的异构系统、应用、数据源等,完成在企业内部的ERP、CRM、SCM、数据库、数据仓库,以及其它重要的内部系统之间无缝地共享和交换数据的需要。数据集成是企业应用集成的重要环节,企业实现数据集成,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。
ETL原本是作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。现在也越来越多地将ETL应用于一般信息系统中数据的迁移、交换和同步。一个简单的ETL体系结构如下图所示。
3.1 ETL分类及其关键技术
ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这
文档评论(0)