我的数据仓库建设经验.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
我的数据仓库建设经验

我的数据仓库建设经验 我的数据仓库建设经验2010-10-11 21:01前言:由于环境因素,得跳槽了,所以写点纪念性的东西,以下为之一。 数据仓库的建设是一个巨大的工程,按照仓库的理论思想和我自己实际的仓库建设过程,我觉得数据仓库最好分为六层的设计思想来构建和实施: 一,源数据层 源数据层的目的是为数据仓库提供数据来源,它的数据来自于仓库外部,如企业各应用系统,各部门的源数据,企业的外围数据,如行业标准等。这些数据的特点是: 1,它们是动态的,数据可能随时间变化。 2,它们是面向应用,面向业务的。 3,它们是明细的,数据粒度是最低的。 4,它们是固定的,在仓库建设过程中,不允许干系人更改它们。 5,它们是形式多样化的,可能以多种新式出现(如file,db table,dataset,xml,sap,xls等)。 6,它们的物理位置的多样性,数据可能在一台机器上,也可能在一个局域网类,也可能在internet上。 7,它们生成的多样性,我们可能每天都到一个固定的地方获取它们,也可能是临时的,跟政策相关的,经协商后产生并提供给仓库用的。 源数据层中数据的生命周期:在数据仓库建设过程中,我们只要向它们取数就行,不用考虑其生命周期。 在数据从本层到ODS层加工的过程中,我想强调的有一下几点: 1,etl工具的使用: 具体情况具体对待,如果源数据层的构成比较简单,数据量也比较少,加工的时间窗口充足,则为了节省成本,可以用一些免费的工具,或者自己开发工具。如果构成比较复杂,数据量也很大,为了保证加工的时间窗口,在资金充足的情况下,建议使用datastage,informatic之类的工具,因为它们在异构数据环境下的数据搬运能力不容小觑。 2,工作内容分析: 本阶段的工作是ETL的E部分,即数据的抽取。当然也包括部分为了更好的抽取而进行的必要数据清洗过程。这部分的工作量依赖于源数据层的构成,源数据层中数据的规整程度以及数据量的大小。如果源数据层构成比较复杂,再加上它数据的规整程度很低,数据量又很大,则本层的工作量是相当的大。否则,则工作量如其它各层的相当。 举例说明,在某银行的数据仓库建设过程中,一个19GB的数据文件入库时报错,经漫长的分析后,发现是数据中的某个中文汉字的编码中包含了作为分隔符的|。再如某银行的数据仓库建设过程中发现,某上级单位下发的非开放式标准的xml类型的数据,需要经过单独开发工具加工处理后才能入ODS层的库。 二,ODS层 数据从源数据层经过简单的清洗后,或者不经过清洗直接搬运后就到了ODS。 ODS层的功能是: 1,为S_DW层提供数据 2,为查询分析层提供明细数据查询 3,隔离了分析系统与业务系统,保证了业务系统的安全性,减轻了业务系统的压力。 ODS层数据的特点是: 1,数据内容与源数据层完全一样或基本一致。 2,数据是明细的,粒度最低的。 3,数据是面向主题存储的。 4,数据是反映历史变化的 5,数据是稳定的。 ODS层数据的生命周期:一天 数据从ODS层加工到S_DW层过程中: 1,etl工具的使用: 建议用procedure,function,UDF等来完成。 1,优点是:效率高,软件费用低,无需额外第三方etl工具的技术支持。 2,缺点是:不便于开发,维护;调度,运行的可监控性较差。 2,工作内容分析: 本阶段的目的是清洗,整合,加工数据。对应于ETL的T,即加工。由于ODS层的每个表数据量都相对较小,故本层中适合做加工处理,多表的关联等。在建好模型的基础上,本部分的开发工作量不是太大。本层的数据依赖于源数据层的数据,而且加工处理较多。故数据加工时间可能比较大。 三,S_DW层 ODS层的数据经过清洗,加工,整合后就到了S_DW层,S_DW层其实是从ODS层分解出来的,它是ODS层和DW层之间的一个中间层,它不是必须的,如果数据仓库比较大,比较复杂,那么建议使用本层,以提高效率。本层的存在相当于用空间来交换时间。 S_DW层的功能是:它为数据从ODS层到DW层提供了一个缓冲,相当于一个临时空间,节省了FACT表和DIM表生成的时间。 S_DW层数据的特点: 1,数据的规整程度较高。 2,数据的粒度较低。 3,数据是面向主题的。 4,数据是反映历史变化的。 5,数据是稳定的。 S_DW层数据的生命周期:一天 数据从S_DW层加工到DW层过程中: 1,ETL工具的使用: 同ODS层。 2,工作内容分析: 本阶段的目的是把整合后的业务数据表加工成符合入仓库规则的FACT表和DIM表。然后数据以FACT表和DIM表的形式入仓库。对应于ETL过程的L,即入仓库。在建好模型的基础上,本部分的开发工作量不是太大。本层的数据依赖于ODS层的数据,加工处理,整合较少。故数据加工时间也较少。 四,DW层 当FACT表,D

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档