第九章 数据仓库开发模型.ppt

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九章 数据仓库开发模型

第九章 数据仓库开发模型 MIS的应用→海量信息→产生了与传统数据库有很大差异的数据环境→ 如何从这些海量数据中获取专门的知识→…… §1 引言 §2 概念模型 §3 逻辑模型 §4 物理模型 §5 元数据模型 §6 粒度模型 §7 聚集模型 §1 引言 创建DW时,需用各种数据模型对DW进行描述。DW的开发者依据这些数据模型,才能开发出一个满足用户需求的DW。 为了使开发人员能够将注意力集中在数据仓库开发的主要部分,模型要有很好的适应性,更易于修改,且,当用户的需求改变时,仅对模型做出相应的变化就能反映这个改变。 模型是对现实世界进行抽象的工具。 信息管理中,需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。 上述的转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程。 此外,数据仓库的开发过程中,还要使用下述很重要的几个数据模型——元数据模型和数据粒度和聚集模型。DW开发过程中,各个数据模型间的关系如下图所示。 §2 概念模型 概念模型是对真实世界中问题域内的事物的描述,包括:记号、内涵、外延,其中记号和内涵(视图)最具实际意义。 和业务处理系统一样,数据仓库构建过程中,也可以用E-R图来表示概念模型——这样做的直接好处是,数据仓库与业务处理系统能够得到很好的协调。 ① 改进的E-R图 与业务处理系统中的数据库概念设计一样,数据仓库也可以用三个层次的数据模型来描述 ——高层模型(E-R图)、中层模型(逻辑层)和底层模型(物理层)。但要注意两者之间的差异: ? 数据类型的差异 DW中不包含操作型数据,只包含用户感兴趣的分析数据(如,商品的销量、企业的利润等)、描述数据(如,销售时间、地点) 以及细节数据(如,所销售商品的详情、客户详情等)。 ? 数据的历史变迁性 业务处理系统中,一般只包含当前数据而不含历史数据; 数据仓库中,为了反映出组织的历史变迁、业务的发展等,需要增加时间属性进行描述(即把时间作为关键字的一部分)。 ? 数据的概括性 为了提高使用的性能,往往在数据仓库中增加一些由基本数据导出的衍生数据,它们在业务处理系统中是不存在的。 为此,对传统的E-R图进行了一些改进: 把实体扩展成三类——指标实体(事实实体)、维实体和详细类别实体。 其中: 指标实体 指标实体对应现实世界的业务处理或某一事件。随着时间的推移以及数据仓库需求的变化,指标实体的数据量会日益膨胀,因此,它是数据仓库管理的重点。 其主要特性如下:是分析中心,提供基本数据;含多个数据访问路径;含标准数据;能扩充成很大的表——以容纳日益增长的数据。 维实体 主要用于对实体的过滤和重新组织,可将用户的查询结果按维指标进行筛选,可在指标实体之间以及指标实体与详细类别实体之间建立联系。 其主要特性:访问并过滤指标实体;是非标准实体(含完整的维体系编码、关键词及相关运算);引导用户及进行查询分析等等。 详细类别实体 与现实世界的某一实体(一个客户/一个产品/一个销售点)对应,为用户提供更为详细的分析数据。 其主要特性为:含参考数据及有助于完成指标数据职能的支持信息;与事务结构有映射关系;是标准的数据结构;数据量比指标实体少,比维实体多。 ② 反规范化处理 业务处理系统中的数据库设计,是以规范化数据模型为目标的,如,RDBMS中的3NF等,规范化数据模型具有存储的高效性和灵活性的特点。 数据仓库中,若仍采用规范化数据模型的话,就会存在一系列“小”表,在进行大量的数据处理时,会频繁地与这些小表进行动态连接,从而产生大量的I/O操作。 反规范化处理,就是为了减少I/O次数而把上述的诸多“小”表合并在一起的处理方法。 可见, 反规范化处理是以增加数据的冗余为代价来减少I/O次数的——由于数据仓库中要进行海量的数据处理,因此,这种以“空间换时间”的尝试,在数据仓库应用中是值得的,也是易于被用户所接受的。 ③ 星形模型 进而,实际应用中,会有大量数据载入订单实体,其他实体只有少量数据载入——因此需要一种有别于传统ER图的数据模型来描述某个实体需载入大量数据的结 一个星形模型包含一个对应于某个主题的事实表和若干个非正规化描述事实的维表。星形模型具有以下特性: ? 事实表的数据描述特定的商务事件,一 般可以添加不许修改; ? 维表存放事实表中数据的特征值,利用

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档