网站大量收购闲置独家精品文档,联系QQ:2885784924

转 灵活有效的数据仓库解决方案 设计并实现仓库ET.doc

转 灵活有效的数据仓库解决方案 设计并实现仓库ET.doc

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
转 灵活有效的数据仓库解决方案 设计并实现仓库ET

转 灵活有效的数据仓库解决方案 设计并实现仓库ET (转)灵活有效的数据仓库解决方案:设计并实现仓库ETL过程2010-07-09 01:27本文将介绍设计和实现仓库ETL过程,并了解仓库的性能和安全问题。 简介 数据集成是数据仓库中的关键概念。ETL(数据的提取、转换和加载)过程的设计和实现是数据仓库解决方案中极其重要的一部分。ETL过程用于从多个源提取业务数据,清理数据,然后集成这些数据,并将它们装入数据仓库数据库中,为数据分析做好准备。ETL过程设计 尽管实际的ETL设计和实现在很大程度上取决于为数据仓库项目选择的ETL工具,但是高级的系统化ETL设计将有助于构建高效灵活的ETL过程。 在深入研究数据仓库ETL过程的设计之前,请记住ETL的经验法则:ETL过程不应修改数据,而应该优化数据。如果您发现需要对业务数据进行修改,但不确定这些修改是否会更改数据本身的含义,那么请在开始ETL过程之前咨询您的客户。调制的ETL过程设计 由于其过程化特性以及进行数百或数千个操作的可能性,所以以精确方式设计ETL过程,从而使它们变得高效、可伸缩并且可维护就极为重要。ETL数据转换操作大致可以分为6个组或模块:数据的提取、验证、清理、集成、聚集和装入。要安排好这些组,按照使这一过程获得最大简化、具有最佳性能和易于修改的逻辑次序来执行操作。下图中展示了执行的次序。图1.ETL数据转换过程的功能模块设计 在项目的业务需求和数据分析阶段,我们创建了数据映射信息。有许多中记录数据映射的方式;ETL数据映射表是指导ETL过程设计的最佳方式。您还可以将该表用作与业务客户就数据映射和ETL过程问题进行交流的方式。ETL数据映射表有不同的级别,如实体级别和属性级别。每个级别中都具有不同级别的详细数据映射信息。下表是一个实体级别的ETL数据映射表的简化例子。该表中的每个X表示到操作细节或较低级数据映射文档的链接。表1.ETL实体映射表 源验证清理转换集成聚集目标 账户客户X X?X X客户 信贷客户X XX 借贷客户X?X 支票账户X X?X X账户 储蓄账户X?X 信贷账户X?X 借贷账户X X?在DB2数据仓库中实现ETL过程 DB2?Universal Database?Data Warehouse Editions为数据仓库功能提供了改进的性能和可用性。DB2 Data Warehouse Center(DWC)是一个可视化的ETL设计和实现工具,它是DB2 UDB中的组成部分。这一节将查看如何使用DB2 UDB(Version 8.2.1)Data Warehouse Center设计和实现仓库ETL过程。创建仓库控制数据库 仓库控制数据库包含存储数据仓库中心(Data Warehouse Center)元数据所必需的控制表。在Data Warehouse Center的Version 8.2或更新的版本中,仓库控制数据库必须是UTF-8(Unicode Transformation Format或Unicode)的数据库。这一需求为Data Warehouse Center提供了扩展的语言支持。如果尝试使用非Unicode格式的数据库登录Data Warehouse Center,那么您会收到无法登录的错误消息。您可以使用Warehouse Control Database Management工具,将元数据从指定的数据库迁移到新的Unicode数据库中。 下面是创建和启动新的仓库控制数据库的步骤: 确保启动了DB2仓库(Warehouse)服务器和相关的服务。在仓库控制数据库的管理窗口中,填入控制数据库名、模式名(IWH)、用户ID和密码,并创建该仓库控制数据库。如果在以前版本的DB2 DWE上已经有一个仓库,那么还可以使用此过程将仓库控制数据库迁移到当前版本中。 通过新创建的或迁移的控制数据库登录到DB2 Data Warehouse Center,如图2所示。确保使用与步骤1相同的用户ID和密码。如果仓库控制数据库是一个远程数据库,则必须对该节点和控制数据库进行编目。图2.登录DB2 DWE仓库中心 注意:DB2 Data Warehouse Center的登录窗口将允许您在多个仓库控制数据库中进行切换。当有许多项目或开发人员在同一DB2数据仓库(Data Warehouse)服务器上工作时,此功能极其有用。定义代理站点 仓库代理(agent)管理数据源和目标仓库之间的数据流。仓库代理可用于AIX?、Linux、iSeries?、z/OS?、Windows?NT、Windows 2000和Windows XP操作系统,以及Solaris?操作环境(Operating Environment)。 这些代理使用Open Database Co

文档评论(0)

3471161553 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档