- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于CWM的商数据仓库ETL系统架构研究
基于CWM的商场数据仓库ETL系统架构研究
[摘要]在完成商场数据仓库数据模型的设计与构建后,数据的抽取、转换、加载成为建立数据仓库最重要的工作。针对商场数据仓库对ETL技术的要求,在 研究 CWM工作机制的基础上,提出了基于CWM的商场数据仓库ETL系统架构的设计。通过 分析 CWM对ETL提供的技术支持,论证了系统架构的可行性和 科学 性。
[关键词]商场数据仓库ETL元数据CWMETL系统架构
商场数据仓库数据模型建立后,一个最重要的 问题 ,是如何把已有的、各种异构的操作型的海量数据,从各种操作型数据库系统中抽取出来,排除数据中的数据缺陷,完成一系列转换,最后将数据加载到数据仓库中,成为面向主题的、集成的、 历史 的、不易娈的、综合的数据。为管理者提供决策支持的有用信息。国内外有 影响 力的大型商场 企业 纷纷率先建立自己的数据仓库或数据集市。以满足决策的需要。
一、ETL概述
ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的简写,它是指:将各种异构数据源中的数据抽取出来,并将不同数据源的数据进行转换和整合,得出一致性的数据,然后加载到数据仓库中。ETL工具,是数据仓库系统的重要组成部分;是影响数据仓库系统成败的关键。
获取ETL工具有两个途径:利用现有商品化ETL工具,虽然能缩短系统的开发周期,但存在投资成本大,软件的针对性、通用性、兼容性差的问题。自行设计开发一个标准通用的ETL工具,提高ETL的实用价值,降低项目实施的成本和风险,具有重要的意义。
由于数据仓库和数据源系统在数据格式、数据模型等方面存在很大差异,客观上形成数据仓库ETL实现过程很大的难度。在ETL的工作过程中,每步都和数据仓库元数据密切相关。
按照传统的定义,元数据(Metadata)是关于数据的数据。元数据支撑了数据仓库开发 应用 的全过程,成为数据从数据源到数据仓库的桥梁。
数据抽取阶段,没有相应的映射规则,就无法知道需要抽取什么样的数据;在将源数据存储格式转换为目标数据存储格式时,需要知道源存储格式和目标存储格式的信息,以及相应的存储格式之间的转换规则;在数据加载阶段,需要知道目标数据仓库的数据结构和相关信息。所有这些信息,都需要元数据提供。
由此可见,ETL过程自始至终都需要元数据的支持和控制。正因为如此,要解决ETL开发中的问题,应当从相关的元数据着手。
二、关于CWM及其提供的工作机制
CWM(CommonWarehouseMetamodel公共仓库元模型)是国际对象管理集团OMG推出的数据仓库元数据管理规范。CWM的主要目的是在分布异构环境下,使数据仓库工具、工作平台和元数据存储库之间易于进行数据仓库元数据的交换。
CWM基于以下三个 工业 标准制定:
(UnifiedModelingLanguage统一建模语言)
作为 目前 最为风行的建模语言,UML用于描述一般数据仓库架构的元模型。
(MetaObjectFacility元对象工具)
MOF是OMG元模型和元数据的存储标准,用以定义存储库的结构、对外接口和交换格式的映射规则。
(XMLMetadataInterchange,XML元数据交换)
XMI是基于XML的元数据交换。定义如何用XML表示基于MOF的元数据,使元数据以XML文件流的方式进行交换。
基于上列三个标准,CWM为数据仓库工具之间共享元数据,制定了一整套关于模式、语法和语义的规范。主要包括:
(1)CWM元模型(Metamodel):描述数据仓库系统共享的元模型。它由一系列子元模型构成。
(2)CWMXML:CWM元模型的XML表示。
(3)CWMDTD:DW/BI共享元数据的交换格式。
(4)CWMIDL:DW/BI共享元数据的应用程序访问接口。
基于CWM的数据仓库元数据转换和管理模型可用图1表示。从图1不难理解,元数据库也是基于CWM标准,通过CWM元模型映射构建。CWM以UML的元模型为基础,针对数据仓库领域的应用,使用特定的元类、元关系,将来自各异构数据源和数据仓库各个组件中的元数据,通过CWMXML、CWMDTD、CWMIDL三个规范,转化为XML文档。为数据仓库元数据管理提供了满足元数据交换所需的语法和语义规范的、方便元数据交换和元数据存储的XML文件。
三、基于CWM的数据仓库ETL系统架构
1.基于CWM的ETL系统架构
在 研究 ETL和CWM的基础上,设计出基于CWM的数据仓库ETL过程的系统架构,如图2所示。
2.系统架构的结构 分析
(1)ETL子系统结构
ETL子系统结构由五
文档评论(0)