第4章 数据仓库设计与开发.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 数据仓库设计与开发

第四章 数据仓库设计与开发 本章目标 了解数据仓库开发应用过程 熟悉数据仓库的规划内容、目标等 掌握数据仓库的分析与设计过程、内容 了解数据仓库的实施过程 第四章 数据仓库设计与开发 本章内容 4.1 数据仓库开发应用过程 4.2 数据仓库的规划 4.3 数据仓库的分析与设计 4.4 数据仓库的实施 4.5 数据仓库技术与开发的困难 4.1 数据仓库开发应用过程 数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成三个阶段: 数据仓库规划分析 数据仓库设计实施 数据仓库使用维护 这三个阶段是一个不断循环、完善、提高的过程(螺旋式)。 螺旋式开发应用过程 4.2 数据仓库的规划 选择数据仓库实现策略 自顶向下:实际应用比较困难 。 自底向上:用于一个数据集市或一个部门的数据仓库开发 ,容易获得成功 。 两种策略的联合使用 :能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作 。 用自顶向下方法 建造企业数据仓库 建设中心数据模型 一次性的完成数据的重构工作 最小化数据冗余度和不一致性 存储详细的历史数据 从企业数据仓库中建造数据集市 得到大部分的集成数据 直接依赖于数据仓库的可用性 问题 投资效益的时间? 建设中心数据模型的必要性和可能性? 初始费用 ? 用自底向上方法 建立部门数据集市 限制在一个主题区域 快速投资收益 区域自治 – 设计的可伸缩性强 对相关部门的应用容易复制 对每个数据集市需要数据重构 存在一定的冗余及不一致性 逐步扩展到企业数据仓库 (EDW) 把建造EDW作为一个长期的目标 存在的问题: 数据集市的数据都是可用的吗? 能生成数据模型吗? 如何解决不一致性? 采用从顶向下 VS 从底向下 企业内部、各个业务部门和各个工作岗位对数据仓库的理解和期望不同。作为具体的部门,有特定的信息需求,都希望能在尽可能短的时间内需求获得满足。建立局部的系统,所需信息能够立即为其使用。因此对部门而言,他们追求的是一种短期的局部目标,关心的是基于所在位置的局部解决方案。 整个企业看,建立数据仓库的目的之一是获得对整个企业业务信息的视图。以便能把握和管理企业的经营运行,并对企业进行业务重组。 企业现有系统往往不同程度上存在各自为政,缺乏统一的规划和设计。数据出自各部门,提供的信息不一致,使得高层无法获得可靠、统一和协调的信息。 企业追求的是长期的集成目标,关心的是基于整个企业的全面解决方案。 两者的目标是有矛盾的! 确定数据仓库的开发目标和实现范围 首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。 另一个重要目标是确定利用哪些方法和工具访问和导航数据? 其它目标是确定数据仓库内部数据的规模 从用户的角度分析 从技术的角度分析 数据仓库的结构 数据仓库的应用结构 基于业务处理系统的数据仓库 单纯数据仓库 单纯数据集市 数据仓库和数据集市 数据仓库的技术平台结构 单层结构 客户/服务器两层结构 三层客户/服务器 多层式结构 数据仓库使用方案和项目规划预算 实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来 开发方案的预算进行估计 编制数据仓库开发说明书 : 说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。 业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。 计划中需要阐明期望取得的有形和无形利益 业务价值计划最好由目标业务主管来完成 规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。 4.3 数据仓库的分析与设计 4.3.1 需求分析 4.3.2 概念模型设计 4.3.3 逻辑模型设计 4.3.4 物理模型设计 4.3.5 数据仓库的索引技术 4.3.1 需求分析 确定主题域 支持决策的数据来源 数据仓库的成功标准和关键性能指标 数据量与更新频率 确定主题域 (1)明确对于决策分析最有价值的主题领域有哪些? (2)每个主题域的商业维度是哪些?每个维度的粒度层次有哪些? (3)制定决策的商业分区是什么? (4)不同地区需要哪些信息来制定决策? (5)对哪个区域提供特定的商品和服务? 支持决策的数据来源 (1)哪些源数据(操作型)与商品主题有关? (2)在已有报表和在线查询中得到什么样的信息? (3)提供决策支持的细节程度是怎样的? 数据仓库的成功标准和关键性能指标 (1)衡量数据仓库成功的标准是什么? (2)哪些关键的性能指标?如何监控? (3)对数据仓库的期望是什么? (4)对数据仓库的预期用途有哪些? (5)对计划中的数据仓库的考虑要点是什么? 数据量与更新频率 (1)数据仓

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档