- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯
《电信交换~2oos年 第 1期
BI项 目中ETL设计与思考
胡 博
(电信科学技术第十研究所 陕西 西安 710061)
摘 要:ETL是BI(BusinessIntelligence,商业智能)项 目中的重要环节。本文
阐述 了ETL的相关概念 ,重点讨论了ETL的分组模块和设计思路,对 ETL的两种
实现方式进行 了比较 。
关键词:商业智能 ETL过程 数据一致性 数据集成化
一 、 ETL的概念
BI运作所依靠的信息系统是一个由传统系统、不兼容数据源、数据库与应用等共同构
成的复杂数据集合,各个部分之间不能彼此交流。从这个层面看,目前运行的应用系统是
企业花费了很大的精力和财力构建的、不可替代的系统,尤其是系统的数据。新建BI系统
的目的就是要通过数据分析来辅助 自己决策,而这些数据的来源、格式不一样,导致了系
统实施、数据整合的难度。因此,企业非常希望有一个全面的解决方案来处理数据一致性
与集成化的问题,从而能够从所有传统环境和平台中采集数据,并利用一个单一解决方案
对其进行高效的转换。这个解决方案就是 ETL。
ETL作为数据仓库的源数据处理部分,包括数据抽取 (Extraction)、转换 (Transforma-
fion)和装载(Loading)三个步骤,通过这些步骤,完成数据从源数据装载到 DW(DataWare—
house,数据仓库)中的过程…;其 目的是将企业中分散、零乱、标准不统一的数据整合到
一 起,为企业的决策提供分析依据。ETL是BI项 目中的一个重要环节,在通常情况下,BI
项 目中ETL会花掉整个项 目1/3的时间,ETL设计的好坏直接关系到BI项 目的成败。,
ETL的整个过程就是数据流动的过程,从不同异构数据源流向统一的目标数据。其间,
数据的抽取、清洗、转换和装载形成串行或并行的过程。ETL的核心在 T这个过程。也就
是转换;而抽取和装载一般可作为转换的输人和输出,或者它们作为一个单独的部件,其
复杂度没有转换部件高。与OLTP系统不同,那里充满单条记录的insert、update和select等
操作,而ETL过程一般都是批量操作。
二、ETL的设计思路
由于BTL过程化特性以及进行数百或数千个操作的可能性,因而以精确方式设计ETL过
程,使它们变得高效,可伸缩和可维护就显得极为重要。本文参照IBM的经验将 ETL分为5
个组或模块 :数据的抽取、验证、清理、转换和装人。ETL中的E包括数据的抽取、验证;
T包括数据的清理和转换;L即数据的装人。安排好这些模块,按照使这一过程获得最简化、
具有最佳性能和易于修改的逻辑次序来执行操作。图1展示了ETL模块执行的次序。
一 7 一
维普资讯
胡博:BI项 目中ETL设计与思考
图1 ETL数据转换过程的功能模块设计
1.数据抽取
这一步骤需要在调研阶段做大量的工作。首先,要搞清数据是从哪几个业务系统中来,
各个业务系统的数据库服务器都运行什么 DBMS(DatabaseManagementSystem,数据库管理
系统);其次,数据库中都有哪些表结构以及每种表结构所对应的具体意义;第三,是否存
在手工数据,手工数据量有多大;第四,是否存在非结构化的数据等等。当收集完这些信
息之后,最好能给出业务数据说明文档,这样才可以进行数据抽取的设计。
(1)对与存放DW 的数据库系统相同的数据源处理方法 这类数据源在设计上比较容
易。一般情况下,DBMS(如:SQLServer,Oracle)都会提供数据库链接功能,在DW数据库
服务器和原业务系统之间,建立直接的链接关系就可以写 select语句直接访问。
(2)对与DW数据库系统不同的数据源的处理方法 对于这类数据源,一般情况下也可
以通过ODBC的方式建立数据库链接,如SQLServer和 Oracle之间。如果不能建立数据库
链接,可以有两种方式完
文档评论(0)