BI项目中ETL设计与思考.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯 《电信交换~2oos年 第 1期 BI项 目中ETL设计与思考 胡 博 (电信科学技术第十研究所 陕西 西安 710061) 摘 要:ETL是BI(BusinessIntelligence,商业智能)项 目中的重要环节。本文 阐述 了ETL的相关概念 ,重点讨论了ETL的分组模块和设计思路,对 ETL的两种 实现方式进行 了比较 。 关键词:商业智能 ETL过程 数据一致性 数据集成化 一 、 ETL的概念 BI运作所依靠的信息系统是一个由传统系统、不兼容数据源、数据库与应用等共同构 成的复杂数据集合,各个部分之间不能彼此交流。从这个层面看,目前运行的应用系统是 企业花费了很大的精力和财力构建的、不可替代的系统,尤其是系统的数据。新建BI系统 的目的就是要通过数据分析来辅助 自己决策,而这些数据的来源、格式不一样,导致了系 统实施、数据整合的难度。因此,企业非常希望有一个全面的解决方案来处理数据一致性 与集成化的问题,从而能够从所有传统环境和平台中采集数据,并利用一个单一解决方案 对其进行高效的转换。这个解决方案就是 ETL。 ETL作为数据仓库的源数据处理部分,包括数据抽取 (Extraction)、转换 (Transforma- fion)和装载(Loading)三个步骤,通过这些步骤,完成数据从源数据装载到 DW(DataWare— house,数据仓库)中的过程…;其 目的是将企业中分散、零乱、标准不统一的数据整合到 一 起,为企业的决策提供分析依据。ETL是BI项 目中的一个重要环节,在通常情况下,BI 项 目中ETL会花掉整个项 目1/3的时间,ETL设计的好坏直接关系到BI项 目的成败。, ETL的整个过程就是数据流动的过程,从不同异构数据源流向统一的目标数据。其间, 数据的抽取、清洗、转换和装载形成串行或并行的过程。ETL的核心在 T这个过程。也就 是转换;而抽取和装载一般可作为转换的输人和输出,或者它们作为一个单独的部件,其 复杂度没有转换部件高。与OLTP系统不同,那里充满单条记录的insert、update和select等 操作,而ETL过程一般都是批量操作。 二、ETL的设计思路 由于BTL过程化特性以及进行数百或数千个操作的可能性,因而以精确方式设计ETL过 程,使它们变得高效,可伸缩和可维护就显得极为重要。本文参照IBM的经验将 ETL分为5 个组或模块 :数据的抽取、验证、清理、转换和装人。ETL中的E包括数据的抽取、验证; T包括数据的清理和转换;L即数据的装人。安排好这些模块,按照使这一过程获得最简化、 具有最佳性能和易于修改的逻辑次序来执行操作。图1展示了ETL模块执行的次序。 一 7 一 维普资讯 胡博:BI项 目中ETL设计与思考 图1 ETL数据转换过程的功能模块设计 1.数据抽取 这一步骤需要在调研阶段做大量的工作。首先,要搞清数据是从哪几个业务系统中来, 各个业务系统的数据库服务器都运行什么 DBMS(DatabaseManagementSystem,数据库管理 系统);其次,数据库中都有哪些表结构以及每种表结构所对应的具体意义;第三,是否存 在手工数据,手工数据量有多大;第四,是否存在非结构化的数据等等。当收集完这些信 息之后,最好能给出业务数据说明文档,这样才可以进行数据抽取的设计。 (1)对与存放DW 的数据库系统相同的数据源处理方法 这类数据源在设计上比较容 易。一般情况下,DBMS(如:SQLServer,Oracle)都会提供数据库链接功能,在DW数据库 服务器和原业务系统之间,建立直接的链接关系就可以写 select语句直接访问。 (2)对与DW数据库系统不同的数据源的处理方法 对于这类数据源,一般情况下也可 以通过ODBC的方式建立数据库链接,如SQLServer和 Oracle之间。如果不能建立数据库 链接,可以有两种方式完

文档评论(0)

you-you + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档