02数据仓库与多维模型设计.pptVIP

  • 6
  • 0
  • 约4.07千字
  • 约 27页
  • 2023-10-09 发布于北京
  • 举报
数据仓库与多维模型设计 学习内容 多维模型与数据仓库概述 设计数据仓库 设计多维模型 多维模型与数据仓库 概述 多维模型与数据仓库 多维模型通过组织和汇总数据仓库中的数据而为分析查询提供一种多维的表现方式。数据仓库是多维数据集的数据基础,其结构的设计会影响多维数模型的设计和建立的难易程度。 数据仓库设计原则(一) 模型构架 尽量使用星型架构,使用雪花架构的目的是使事实表第一级的维表数量达到最小。 设计方法 将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到单一维度表中,而且在多个维度表中数据不应重复。 维表设计 设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和大小。 事实表设计 不要在事实数据表中进行过度的汇总,以保证在必要时可以进行所需粒度的数据访问。 数据仓库设计原则(二) 数据存储方式 在必要时可以把要在同一个多维数据集中使用的数据存储在多个事实数据表中,条件是这些事实数据表必须具有相同的结构。 索引 在关键字段上创建索引,以提高处理多维数据集的性能。 特殊要求 根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。 增量更新 必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。 数据仓库基本元素(一) 关系型数据库 关系数据库是建立数据仓库的基础引擎平台,它为数据仓库提供临时存储、清理和转换传入的数据,容纳和管理数据仓库中的大量数据,并支持数据仓库的功能。 数据源 数据源是数据仓库用于分析的数据来源,是建立数据仓库时必须聚集和合并的不同来源的数据。 数据仓库基本元素(二) 事实表 事实表是用于存放经过汇总的历史信息,也就是事实数据的表,是星型架构或雪花型架构的中心。每个数据仓库或数据集市都包括一个或多个事实表。事实表一般不包含描述性信息,具有可以聚合的特点。 维表 维度表是存储描述事实表中事实数据特性的表,每个维表都是独立于其它维表的,并且包含了事实特性的层次结构信息。 索引 与在任何关系数据库中一样,索引对提高数据仓库性能和处理多维数据集性能的起着重大作用,是数据仓库中不可或缺的部分。 数据仓库组织形式(一) 星型模型 星型模型是由单个事实数据表和一些维度表组成的构架模型。在这种模型中每个维度表均联接到事实数据表上。 数据仓库组织形式(二) 雪花型模型 雪花型架构比星型模型增加了次要维表,有一个或多个维表是联接到其它维表上,而非事实数据表上。 数据仓库设计(一)——事实表 事实表设计 每个事实数据表都应该由两个部分组成,一个由多个部分组成的索引和一些由这些索引所描述的数据。 索引部分 索引部分包含着与描述事实数据特征的维表相关联的外键信息。 数据部分 数据部分是事实表中真正要存放的事实数据。 数据仓库设计(一) ——事实表 事实表示例: 前五列为索引部分,后三列是事实数据部分 数据仓库设计(一) ——事实表 设计事实表应注意的问题 事实表中一般不应包含描述性信息,也不应包含除事实表与维表中间对应的关联字段之外的任何数据。 事实表中的数据应该是经过适当聚合的数据 事实表中数据的粒度应该是一致的 事实表的设计应该考虑增量数据更新的需要,例如是否需要增加时间戳字段等。 数据仓库设计(二) ——维表 维表设计 维表设计中由于维度类型的不同,其维表结构也会相应有不同特点。 维度分类 普通维 普通维是基于一个维表的维度,由维表中的不同列来表示维度中的不同级别。 雪花维 雪花维是基于多个维表的维度,各个维表间以外键关联,分别存储同一维度中不同级别的成员列值。 父子维 父子维是基于两个维表列的维度,由维表中的两列来共同定义各个成员的隶属关系。一列称为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。 数据仓库设计(二) ——维表 普通维 普通维中的层次是根据维表的列而定义的,所以维表中列的定义会直接影响到维度中层次的定义。设计普通维度的维表必须充分考虑维度的扩展性。 示例: 例如下图中典型的时间维度如左图所示,则每一个层次在维表中均应有对应的列。 数据仓库设计(二) ——维表 雪花维 由于雪花维是基于不同维表建立的,所以针对雪花维而设计的维表必然有多个,各维表分别存储维度中不同级别的成员值,维表间以外键关联。 示例: 例如,典型的地区维中地市维表可以存储全国所有的城市名称和编码,以及所属省份的编码,而在省份维表中则只存储省份名称和编码,两维表以省份编码关联。 数据仓库设计(二) ——维表 父子维 由于父子维中的层次关系是由维表中的两个列来共同定义的,所以其维度层次结构是由维表中的列值决定的,且维度层次分布是不均衡的。 示例: 例如,典型的机构维中除了最上层的机构外其它机构都具有其本身机构信息和上级机构信息两项属性。

文档评论(0)

1亿VIP精品文档

相关文档