- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
我的数据仓库建设经验
我的数据仓库建设经验
我的数据仓库建设经验2010-10-11 21:01前言:由于环境因素,得跳槽了,所以写点纪念性的东西,以下为之一。
数据仓库的建设是一个巨大的工程,按照仓库的理论思想和我自己实际的仓库建设过程,我觉得数据仓库最好分为六层的设计思想来构建和实施:
一,源数据层
源数据层的目的是为数据仓库提供数据来源,它的数据来自于仓库外部,如企业各应用系统,各部门的源数据,企业的外围数据,如行业标准等。这些数据的特点是:
1,它们是动态的,数据可能随时间变化。
2,它们是面向应用,面向业务的。
3,它们是明细的,数据粒度是最低的。
4,它们是固定的,在仓库建设过程中,不允许干系人更改它们。
5,它们是形式多样化的,可能以多种新式出现(如file,db table,dataset,xml,sap,xls等)。
6,它们的物理位置的多样性,数据可能在一台机器上,也可能在一个局域网类,也可能在internet上。
7,它们生成的多样性,我们可能每天都到一个固定的地方获取它们,也可能是临时的,跟政策相关的,经协商后产生并提供给仓库用的。
源数据层中数据的生命周期:在数据仓库建设过程中,我们只要向它们取数就行,不用考虑其生命周期。
在数据从本层到ODS层加工的过程中,我想强调的有一下几点:
1,etl工具的使用:
具体情况具体对待,如果源数据层的构成比较简单,数据量也比较少,加工的时间窗口充足,则为了节省成本,可以用一些免费的工具,或者自己开发工具。如果构成比较复杂,数据量也很大,为了保证加工的时间窗口,在资金充足的情况下,建议使用datastage,informatic之类的工具,因为它们在异构数据环境下的数据搬运能力不容小觑。
2,工作内容分析:
本阶段的工作是ETL的E部分,即数据的抽取。当然也包括部分为了更好的抽取而进行的必要数据清洗过程。这部分的工作量依赖于源数据层的构成,源数据层中数据的规整程度以及数据量的大小。如果源数据层构成比较复杂,再加上它数据的规整程度很低,数据量又很大,则本层的工作量是相当的大。否则,则工作量如其它各层的相当。
举例说明,在某银行的数据仓库建设过程中,一个19GB的数据文件入库时报错,经漫长的分析后,发现是数据中的某个中文汉字的编码中包含了作为分隔符的|。再如某银行的数据仓库建设过程中发现,某上级单位下发的非开放式标准的xml类型的数据,需要经过单独开发工具加工处理后才能入ODS层的库。
二,ODS层
数据从源数据层经过简单的清洗后,或者不经过清洗直接搬运后就到了ODS。
ODS层的功能是:
1,为S_DW层提供数据
2,为查询分析层提供明细数据查询
3,隔离了分析系统与业务系统,保证了业务系统的安全性,减轻了业务系统的压力。
ODS层数据的特点是:
1,数据内容与源数据层完全一样或基本一致。
2,数据是明细的,粒度最低的。
3,数据是面向主题存储的。
4,数据是反映历史变化的
5,数据是稳定的。
ODS层数据的生命周期:一天
数据从ODS层加工到S_DW层过程中:
1,etl工具的使用:
建议用procedure,function,UDF等来完成。
1,优点是:效率高,软件费用低,无需额外第三方etl工具的技术支持。
2,缺点是:不便于开发,维护;调度,运行的可监控性较差。
2,工作内容分析:
本阶段的目的是清洗,整合,加工数据。对应于ETL的T,即加工。由于ODS层的每个表数据量都相对较小,故本层中适合做加工处理,多表的关联等。在建好模型的基础上,本部分的开发工作量不是太大。本层的数据依赖于源数据层的数据,而且加工处理较多。故数据加工时间可能比较大。
三,S_DW层
ODS层的数据经过清洗,加工,整合后就到了S_DW层,S_DW层其实是从ODS层分解出来的,它是ODS层和DW层之间的一个中间层,它不是必须的,如果数据仓库比较大,比较复杂,那么建议使用本层,以提高效率。本层的存在相当于用空间来交换时间。
S_DW层的功能是:它为数据从ODS层到DW层提供了一个缓冲,相当于一个临时空间,节省了FACT表和DIM表生成的时间。
S_DW层数据的特点:
1,数据的规整程度较高。
2,数据的粒度较低。
3,数据是面向主题的。
4,数据是反映历史变化的。
5,数据是稳定的。
S_DW层数据的生命周期:一天
数据从S_DW层加工到DW层过程中:
1,ETL工具的使用:
同ODS层。
2,工作内容分析:
本阶段的目的是把整合后的业务数据表加工成符合入仓库规则的FACT表和DIM表。然后数据以FACT表和DIM表的形式入仓库。对应于ETL过程的L,即入仓库。在建好模型的基础上,本部分的开发工作量不是太大。本层的数据依赖于ODS层的数据,加工处理,整合较少。故数据加工时间也较少。
四,DW层
当FACT表,D
您可能关注的文档
- 山西省环境保护新闻发布制度.doc
- 川渝合作示范园汇报.doc
- 工会领导干部个人重大事项报告制度.doc
- 工作总结 如何正确处理涉法涉诉信访问题.doc
- 工商管理本科企业管理模拟实验报告.doc
- 工商管理系校园民谣演唱会策划书.doc
- 工程塑料原料及生产商.doc
- 工程流体力学 课后习题答案 袁恩熙 石油工业出版社.doc
- 工程项目成本分析与控制开题报告.doc
- 工程竣工验收报告doc.doc
- 第十一章 电流和电路专题特训二 实物图与电路图的互画 教学设计 2024-2025学年鲁科版物理九年级上册.docx
- 人教版七年级上册信息技术6.3加工音频素材 教学设计.docx
- 5.1自然地理环境的整体性 说课教案 (1).docx
- 4.1 夯实法治基础 教学设计-2023-2024学年统编版九年级道德与法治上册.docx
- 3.1 光的色彩 颜色 电子教案 2023-2024学年苏科版为了八年级上学期.docx
- 小学体育与健康 四年级下册健康教育 教案.docx
- 2024-2025学年初中数学九年级下册北京课改版(2024)教学设计合集.docx
- 2024-2025学年初中科学七年级下册浙教版(2024)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)六年级下册浙摄影版(2013)教学设计合集.docx
- 2024-2025学年小学美术二年级下册人美版(常锐伦、欧京海)教学设计合集.docx
文档评论(0)