- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据-仓库学习.pdf
数据仓库学习
Start :2009.07.08
Updated :2011.02.22
王凡(wangfan)
wf141732@
woshiwangfan@
/lingmengfei
版本 修改日期 内容
1.0 2011.02.22 创建
学习 《数据仓库生命周期工具箱》笔记。
1. 数据仓库的基本组成
1.1. 数据仓库的组成
数据仓库的组成大致包括源系统,登台区,程序服务器三个部分。
源系统-数据登台区(数据过滤,净化)-数据仓库(数据集市)-呈现
源系统:一种记录操作型系统,功能是捕获各种业务事务。
数据登台区:存储区,包括净化、转换、组合、内部处理、存档的过程,为数据仓库准
备元数据。就是一个数据整理的过程,不提供查询与呈现服务。
呈现服务器:使数据最终被用户,其它程序使用和查询。
1.2. 其它概念:
维度模型:数据建模的特殊规范。主要的部件是事实表和维度表。
事实表,简单的理解就是外键的集合
维度表,可以看作是描述性的表
业务过程:业务过程是对用户来说一系列连贯的业务活动的组合。
数据集市:一组业务过程或一组相关业务过程。
数据仓库:企业可查询的数据源,数据仓库由数据集市组成。
操作性数据存储(ODS ):应该是支持应用系统的频繁操作的数据存储。
联机分析处理(OLAP ):多维立方体数据形式。
关系型联机分析处理(ROLAP ):
多维联机分析处理(MOLAP ):
最终用户应用:
最终用户数据存储工具:
特别查询工具:
建模应用:
1.3. 数据仓库的基本过程
数据登台是数据仓库处理的主要过程,包括提取、转换、装载、索引、质量保证检查。
提取:读取和了解元数据,在复制数据登台区需要的部分数据。
转换:净化数据,清除字段,组合数据源,创建代理键,创建聚集。
装载和索引:批量装载和对新加入的数据进行索引。
质量保证检查:对整个装载数据集合作一份完整的例外情况报告。
发布/发行:
更新:
查询:查询只会发生在数据呈现服务器中。
数据反馈/数据流入:将登台区整理的数据提供给其它系统应用。
审计:
安全性:
备份与恢复:
2
1.4. 数据仓库建模
实体-关系(E/R ),易理解性和性能。
1.5. 数据集市和数据仓库
围绕一致性维度和一致性事实。
1.6. 分布式与集中式数据仓库
一致性的维度和一致性的事实可以带来一致性的结构。
2. 业务维生命周期
业务维
2.1. 生命周期法
2.2. 项目规划
数据仓库项目的定义和范围。
项目规划依赖业务需求。
2.3. 业务需求
2.4. 数据轨迹:维度建模
确定一个模型,该模型可以确定事实表的粒度,相关维度,等级式的探查路径以及各种
事实。
3
2
文档评论(0)