第5章数据仓库工程.pptxVIP

  • 2
  • 0
  • 约2.37千字
  • 约 95页
  • 2021-09-16 发布于河北
  • 举报
数据仓库和决策支持系统; 第五章 数据仓库工程; 目录 ;数据仓库的开发应用像其它软件系统一样,具有其特有的、完整的生命周期。 数据仓库的开发应用周期可以分成三个阶段: 规划分析阶段 设计实施阶段 使用维护阶段 这三个阶段是一个不断循环、完善和提高的过程。一般情况下,数据仓库系统不可能在一个循环过程中完成,而须经过多次循环开发。每次循环都会为系统增加新的功能,使数据仓库的应用得到完善和提高。;数据仓库的螺旋式开发方法;5.2 数据仓库的开发模型; 5.2.1 模型与模型转换; ;数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。 作为数据仓库的灵魂——元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。;5.2.2 数据仓库的概念模型 ; 数据仓库的概念数据模型的特点 不包含操作型的数据,只包含用户所感兴趣的分析数据、描述数据和细节数据。 扩充了关键字结构,增加了时间属性作为关键字的一部分。 还增加了一些由基本数据所导出的衍生数据。这些导出的衍生数据主要用于对企业的管理决策进行分析。 ;指标实体 (事实实体);数据模型的规范与反规范; 星型模型 ;利用目前成熟的关系数据库系统,同样也可以建立数据仓库。这样做成本低,实现快,但数据仓库的效率远不如多维数据库形式。在这种情况下,主要是利用星型模式(STAR SCHEME)来组织数据。 时间维表 事实表 产品维表 地区维表 数据仓库的星型模型(关系数据库形式) ; 雪花模型;经济 (年收入) 100万以上 10万以上 1万以上;5.2.3 数据仓库的逻辑模型 ;5.2.3 数据仓库的逻辑模型 ;5.2.4 数据仓库的物理模型;事实表模型设计; 事实表模型设计; 事实表模型设计; 事实表模型设计; 维模型设计;由于有OLAP的要求,数据仓库中数据的物理存储形式应该是基于多维数据模型(所以在逻辑上数据仓库就是一个多维数据库),在实现中一般有两种途径: 基于多维数据库的空间超立方体,又称数据立方体(DATA CUBE) 基于关系数据库的星型模式(由关系型事实表和维表组成) 三种变型:多层分维结构,事实表族,雪花模式 维1 维2 维3 度量(指标) 1990 TV 上海 500 1990 TV 北京 600 1991 VCD 上海 600 1991 VCD 北京 700 ……………………………………… 数据仓库的多维结构;数据仓库物理模型的索引构建;;;; 数据仓库物理模型的优化问题; 数据仓库物理模型的优化问题;5.2.5 数据仓库的元数据模型;5.2.5 数据仓库的元数据模型; 元数据在数据仓库中的作用; 元数据在数据仓库中的作用; 元数据的种类与收集;5.2.6 数据仓库的粒度和聚集模型; 确定粒度的级别; 数据粒度的划分;;数据仓库的聚集模型确定; 聚集模型的处理; 聚集模型的管理;5.3 数据仓库的规划;5.3.2 确定开发目标和实现范围;5.2.3 确定数据仓库的结构;5.2.4 数据仓库使用方案和项目规划预算;5.4 数据仓库的概念模型设计;5.4 数据仓库的概念模型设计; 概念模型的定义; 概念模型的定义; 概念模型的定义; 概念模型的定义; 企业业务处理系统的数据存储模式表; 概念模型的分析; 概念模型的分析---E-R图; 概念模型的设计---星型模型;经济 (年收入) 100万以上 10万以上 1万以上; 概念模型文档与评审;5.5 数据仓库的逻辑模型设计;5.5.1 分析主题域;5.5.2 粒度层次的划分;5.5.5 数据仓库的实体定义;5.5.5 数据仓库的实体定义;5.5.6 数据仓库的数据抽取模型;5.5.6 数据仓库的数据抽取模型;5.5.6 数据仓库的数据抽取模型;5.5.6 数据仓库的数据抽取模型;5.5.6 数据仓库的数据抽取模型;5.5.6 数据仓库的数据抽取模型; 数据抽取过程的排序、概括和导出情况表 ; 数据概括表与事实表对应关系 ;(11);5.5.8 逻辑模型的评审;5.5.8 逻辑模型的评审;5.6 数据仓库的物理模型设计;5.6.1 数据仓库设计的规范;5.6.2 确定数据结构的类型;5.6.2 确定数据结构的类型;5.6.3 数据仓库索引的创建;5.6.4 确定数据存放位置;5.6.5 确定存储分配; 具体的评审项目有: 表空间:数据加载与重组,表连接的竞争 分区:分区原因及数量,并行处理,分区一致 数据表:规范程度,约束条件,一致性 数据压缩:空间节省效果,CPU

文档评论(0)

1亿VIP精品文档

相关文档