数据仓库的开发过程.ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
31 4 、定义记录系统 ? 定义记录系统是建立数据仓库中的数据 以源系统中的数据的对照记录。 ? 记录系统的定义要记入数据仓库的元数 据。 ? 商品主题的记录系统在元数据中可描述 如表 4.2 所示。 32 主题名 属性名 数据源系统 源表名 源属性名 商品 商品 商品 商品 商品 商品 商品 商品 商品 商品号 商品名 类别 客户号 销售日期 售价 销售量 库存量 库存号 库存子系统 库存子系统 库存子系统 销售子系统 销售子系统 销售子系统 销售子系统 库存子系统 库存子系统 商品 商品 商品 客户 销售 销售 销售 库存 仓库 商品号 商品名 类别 客户号 日期 单价 数量 库存量 仓库号 表 4.2 记录系统的定义 33 4.1.4 物理模型设计 ? 确定一个最适合应用要求的物理结构 (包括存储结构和存取方法)。 ? ( 1 )估计存储容量 ? ( 2 )确定数据的存储计划 ? ( 3 )确定索引策略 ? ( 4 )确定数据存放位置 ? ( 5 )确定存储分配 34 1. 估计存储容量 ? ( 1 )对每一个数据库表确定数据量 ? ( 2 )对所有的表确定索引 ? ( 3 )估计临时存储 35 2. 确定数据的存储计划 ? ( 1 )建立聚集(汇总)计划 ? ( 2 )确定数据分区方案 ? ( 3 )建立聚类选项 36 3. 确定索引策略 ? 在数据仓库中由于数据量很大,需要对数据的 存取路径进行仔细设计和选择,建立专用的复 杂的索引,以获得最高的存取效率。 ? 采用 B — Tree 索引,它是一个高效的索引,见 图 4.7 所示。 B 树是一个平衡( balance )树, 即每个叶结点到根节点的路径长度相同。 B 树 索引是一个多级索引。 37 4. 确定数据存放位置 ? 在物理设计时,我们常常要按数据的重要程度、 使用频率以及对响应时间的要求进行分类,并 将不同类的数据分别存储在不同的存储设备中。 ? 重要程度高、经常存取并对响应时间要求高的 数据就存放在高速存储设备上,如硬盘; ? 存取频率低或对存取响应时间要求低的数据则 可以放在低速存储设备上,如磁盘或磁带。 第 4 章 数据仓库的设计与开发 (一) 2 ? 4.1 数据仓库分析与设计 ? 4.2 数据仓库开发 ? 4.3 数据仓库技术与开发的困难 3 4.1 数据仓库分析与设计 ? 4.1.1 需求分析 ? 4.1.2 概念模型设计 ? 4.1.3 逻辑模型设计 ? 4.1.4 物理模型设计 ? 4.1.5 数据仓库的索引技术 4 4.1.1 需求分析 ? 1. 确定主题域 ? 2. 支持决策的数据来源 ? 3. 数据仓库的成功标准和关键性能指标 ? 4. 数据量与更新频率 5 1. 确定主题域 ( 1 )明确对于决策分析最有价值的主题领域有 哪些? ( 2 )每个主题域的商业维度是哪些?每个维度 的粒度层次有哪些? ( 3 )制定决策的商业分区是什么? ( 4 )不同地区需要哪些信息来制定决策? ( 5 )对哪个区域提供特定的商品和服务? 6 2. 支持决策的数据来源 ( 1 )哪些源数据(操作型)与商品主题有 关? ( 2 )在已有报表和在线查询中得到什么样 的信息? ( 3 )提供决策支持的细节程度是怎样的? 7 3. 数据仓库的成功标准和关键性能指标 ( 1 )衡量数据仓库成功的标准是什么? ( 2 )哪些关键的性能指标?如何监控? ( 3 )对数据仓库的期望是什么? ( 4 )对数据仓库的预期用途有哪些? ( 5 )对计划中的数据仓库的考虑要点是 什么? 8 4. 数据量与更新频率 ( 1 )数据仓库的总数据量有多少? ( 2 )决策支持所需的数据更新频率是多 少?时间间隔是多长 ? ( 3 )每种决策分析与不同时间的标准对 比如何? ( 4 )数据仓库中的信息需求的时间界限 是什么? 9 通过需求分析,需要的数据包括: ? 1. 数据源 ? ( 1 )可用的数据源 ? ( 2 )数据源的数据结构 ? ( 3 )数据源的位置 ? ( 4 )数据源的计算机环境 ? ( 5 )数据抽取过程 ? ( 6 )可用的历史数据 10 ? 2. 数据转换 ? 数据仓库中的数据是为决策分析服务, 而源系统的数据为业务处理服务。 ? 需要决定如何正确地将这些源数据转换 成适合数据仓库存储的数据。 11 ? 3. 数据存储 ? 数据仓库所需要的数据的详细程度,包 括足够的关于存储需求的信息,估计数 据仓库需要多少历史和存档数据。 12 ? 4. 决策分析 ? ( 1 )向下层钻取分析 ? ( 2 )向上层钻取分析 ? ( 3 )横向钻取分析 ? ( 4 )切片分析 ? ( 5 )特别查询报表 13 4.1.2 概念模型设计 ? 概念模型的特点是: ? (

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档