- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
构建一个示例数据仓库
数据仓库与OLAP实践 清华大学出版社 第6章 构建一个示例数据仓库 6.1 数据仓库的分类 6.2 数据仓库的开发模式 6.3 两个重要的设计因素 6.4 pubs数据仓库设计 6.5 小结 6.1 数据仓库的分类 按照数据仓库的规模与应用层面来区分,数据仓库可分为下列几种: 标准数据仓库 数据集市 多层数据仓库 联合式数据仓库 标准数据仓库 是企业最常使用的数据仓库。 是依据管理决策的需求将数据加以整理分析,再将其转换到数据仓库中。 这一类数据仓库是以整个企业为着眼点而构建的,其数据都是有关整个企业的数据,用户可以从中得到组织运作的整体统计分析信息。 数据集市 是针对某一主题或某个部门而建构的数据仓库。 它的规模比标准数据仓库小,只存储与部门或与主题相关的数据。 是数据仓库体系结构中的部门级数据仓库,通常用于为单位的职能部门提供信息。 典型的示例是销售部门、库存和发货部门、财务部门、高级管理部门等的数据集市。 多层数据仓库 是标准数据仓库与数据集市的一种组合应用方式。 在整个架构之中,有一个最上层的数据仓库提供者,将数据提供给下层的数据集市。 多层数据仓库使一个数据仓库系统分散开来,其好处是在拥有统一的企业整体数据源的前提下,创建部门级的数据集市更简易。 各数据集市的工作人员可以分散整体性的工作开销,从而减轻了在单一数据仓库上操作的负担。 多层数据仓库示意图 联合式数据仓库 在整体系统中包含多个数据仓库或是数据集市系统,也可以包含多层数据仓库, 但在整个系统中只有一个数据仓库数据的提供者, 适合大型企业使用。 6.2 数据仓库的开发模式 数据仓库和数据集市的专家们提出了三种构建数据仓库的模式。 自顶向下模式,即先建立企业数据仓库,再根据具体的需求建立相关的数据集市; 自底向上模式,即先建立数据集市,再将它们集中到数据仓库中; 联合模式,即以上两种模式的结合,同时建立相关的和独立的数据集市。 自顶向下开发模式 先建立企业数据仓库,再用其中的数据建立一组相关的数据集市。 比如从数据仓库中提取和销售部门相关的数据建立销售数据集市。 自顶向下开发模式优点 是一种严格收集、建模和实现最终用户决策支持需求的普遍方法。它来自于数据仓库的实现方法,并将其应用于数据集市的设计和实现中。 这种模式创建了一个数据仓库系统,使最终用户对企业商业操作、事项以及商业发展的潜在机会有一个全面的认识。 基于面向主题的数据模型减少了集成数据仓库的问题。 相关数据集市是根据企业数据仓库中的信息构建的,从而为数据集市技术的使用提供可靠的方法。 自顶向下开发模式缺点 使用这种模式开发的数据集市项目通常需要较长的时间,而且成本比较高,功能不够完善等等。这是因为在这种模式下,数据集市依赖于数据仓库,而数据仓库还在不断地发展中,同时数据集市的预算很大情况下还取决于数据仓库和其他开发数据集市的工作。 由于企业数据仓库交付使用的时间长,因此不能很快地提出解决方案来满足企业的需求,以便企业能快速地改变商业模式和探索新的商业机会。 自底向上模式 先建立数据集市,然后将其中的数据集成到数据仓库中。 实际上,这种模式的支持者们认为不再需要一个集中的企业数据仓库,而需要一个分布式的数据仓库,它由独立的数据集市组成,之间依靠由集成软件、中间件或决策支持工具建立的统一视图连接。 自底向上模式示意图 自底向上模式示意图 独立数据集市的构造和增长缺乏控制,这不利于对数据集市的集成以及日后集成到企业数据仓库中。 随着数据集市的增长,用户可能需要访问其他部门的数据集市来进行交叉商业分析。而数据集市间的无缝连接必须依靠合适的数据库中间件来完成,而且这些连接操作的透明性差,不易管理,执行多数据集市的查询的效率也较低。 匆忙开发独立数据集市常常导致数据集市的设计受到操作型系统中现有的数据的驱动,而不是用户的商业信息需求。 联合模式 自顶向下和自底向上的开发模式各有利弊。 因此人们希望有一种中间的解决方案,既能控制成本,加快投资回报时间,同时又没有后期集成的问题。 为达到这个目的,必须有独立开发的数据集市,同时还需要用统一的信息模型来描述数据仓库决策过程的需求。 在这种方法下,数据仓库的开发是一个迭代的过程。 联合模式示意图 联合模式(续) 联合数据仓库中数据集成的关键是在数据仓库中保存并管理统一的信息模型。当建立新的独立数据集市,或者增加一个新的相关数据集市时,都要更新信息模型。 数据仓库或数据集市可以被两个因素驱动:操作型数据的需求和决策支持的需求。统一的信息模型必须很灵活,当数据仓库或数据集市受操作型数据驱动时,模型表现为数据仓库的数据模型(仍然遵循星型架构或雪花型架构);当数据仓库背后的驱动力是用户决策过程时,该模型能描述商业模型。 6.3 两个重要的设计因
您可能关注的文档
- 朱自清背影优秀教案及教学设计精选.doc
- 朴智—黄河规划设计院黄委会信息中心管理诊断报告(最终版)0207.ppt
- 机修钳工(一级)培训计划与大纲.doc
- 朱明zhubob常见慢性病膳食营养与指导_图文.ppt
- 机侧巡操05-3答卷.doc
- 术后谵妄--鲁彦斌 课件.pptx
- 机加工协议模板.doc
- 机制砂石粉末对混凝土工作性能和抗压强度的影响.docx
- 机加工课课长(机械制造型企业岗位说明).doc
- 机加工零件验收050901.doc
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)