- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
行业资料数据仓库课件
第3章数据仓库开发应用过程 ;3.1数据仓库开发应用的特点 ;3.1.2 数据仓库的螺旋式开发方法;3.13数据仓库开发特点
1、数据仓库开发是从数据出发的
创建数据仓库是在原有数据库系统中数据的基础上进行的,即从存在于业务处理系统环境中的数据出发进行数据仓库的创建。这种从已有数据出发的数据仓库设计方法称为“数据驱动”的设计方法。
2、数据仓库使用的需求不能在开发初期明确
面向应用的数据库系统设计往往有一组较确定的应用需求,这是数据库系统设计和开发的出发点和基础。在数据仓库的开发初期往往不能明确了解数据仓库用户的使用需求。
3、数据仓库的开发是一个不断循环的启发过程;3.2 数据仓库的规划;3.2.2 确定数据仓库的开发目标和实现范围;3.2.3 数据仓库的结构;2.数据仓库的技术平台结构
(1)单层结构。单层结构主要是指在数据源和数据仓库之间共享平台,或者让数据源、数据仓库、数据集市与最终用户工作站使用同一个平台。共享一个平台可以降低数据抽取和数据转换的复杂性,但是共享平台在应用中可能会遇到性能和管理方面的问题。
(2)客户机/服务器两层结构,。一层为客户层,一层为服务器,最终用户访问工具在客户层上运行,而数据源、数据仓库和数据集市位于服务器上。
(3)三层客户机/服务器。基于工作站的客户层、,基于服务器的中间层和基于主机的第三层。主机层负责管理数据源和可选的源数据转换,服务器运行数据仓库和数据集市软件,并存储仓库的数据,客户工作站运行查询和报表应用程序,有的还可以存储从数据集市或数据仓库卸载的局部数据。
(4)多层式结构,。这是在三层客户机/服务器上发展起来的数据仓库结构,在该结构中从最内层的数据层到最外层的客户层依次是单独的数据仓库存储层、对数据仓库和数据集市进行管理的数据仓库服务层、进行数据仓库查询处理的查询服务层、完成数据仓库应用处理的应用服务层和面向最终用户的客户层。体系层次可能多达五层,这种体系结构一般用于超规模数据仓库系统。;3.2.4 数据仓库使用方案和项目规划预算;3.3 数据仓库的概念模型设计;3.3.2 概念模型的定义;3.3.2 概念模型的定义;3.3.2 概念模型的定义;3.3.2 概念模型的定义;3.3.3 概念模型的分析;3.3.3 概念模型的分析;3.3.4 概念模型的设计;经济
(年收入)
100万以上
10万以上
1万以上;3.3.5 概念模型文档与评审;3.4 数据仓库的逻辑模型设计;3.4.1 分析主题域;3.4.2 粒度层次和聚集的确定;3.4.3 确定数据分割策略;3.4.4 关系模型定义;3.4.5 数据仓库的实体定义;3.4.5 数据仓库的实体定义;3.4.5 数据仓库的实体定义;3.4.6 数据仓库的数据抽取模型;3.4.6 数据仓库的数据抽取模型;3.4.6 数据仓库的数据抽取模型;(2)数据抽取、转换与加载对策,
①全库比较。即将数据源数据的当前瞬间状态与上一次数据抽取时的瞬间状态进行比较,将两者的差异记录在增量文件中,增量文件作为数据加载的来源。
②利用程序日志。该方法主要是在数据源的业务处理系统中利用程序记录将发生变化的数据记录下来,形成增量文件,根据数据仓库的需要传送到数据仓库中。
③利用数据库日志。通过对数据源数据库运行日志的检查,就可以确定哪些数据源发生了变化,也就确定了需要进行加载的数据。
④利用时间戳。这种方法需要在记录中增加时间戳,在记录发生变化时,就加上变化发生时的时间戳,这样只要确定在上一次抽取以后,哪些记录的时间戳穿发生了变化,就可以确定应该被抽取的数据。
⑤利用位图索引。即在数据源的记录中增加一个位图索引字段,其值是:没变化、修改过、修改中。在数据源中增加一个新的记录或修改了一个记录时,值就设置为修改过。数据抽取过程只抽取这些标志为修改过的记录,抽取完成后再将修改过的值改为没变化,将修改中的值改变为修改过。
;3.4.6 数据仓库的数据抽取模型;3.4.6 数据仓库的数据抽取模型;3.4.6 数据仓库的数据抽取模型;3.4.6 数据仓库的数据抽取模型;3.4.6 数据仓库的数据抽取模型;3.4.6 数据仓库的数据抽取模型;3.4.7 数据仓库的元数据模型建立与应用;3.4.8 逻辑模型的评审;3.5 数据仓库的物理模型设计;3.5.1 数据仓库设计的规范;3.5.2 确定数据结构的类型;3.5.3 数据仓库索引的创建;3.5.4 确定数据存放位置;3.5.5 确定存储分配;数据仓库物理模型的评审内容主要包括:所有的数据定义语言、DBMS的安装参数、联机过程或批过程的描述、已知的预期数据使用的情况、数据量和事务量、预计的数据增长速度、物理设计文档。
物理模型设计评审的目
文档评论(0)