数据仓库和数据挖掘技术 第2章 数据仓库开发模型.ppt

数据仓库和数据挖掘技术 第2章 数据仓库开发模型.ppt

  1. 1、本文档共84页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库和数据挖掘技术 第2章 数据仓库开发模型.ppt

第2章 数据仓库开发模型 主讲人:孙水华 副教授 信息科学与工程学院 内 容 数据仓库开发模型概述 数据仓库的概念模型 数据仓库的逻辑模型 数据仓库的物理模型 数据仓库的元数据模型 数据的粒度和聚集模型 小结 2.1 数据仓库开发模型概述 注:度量指标包括实际销售额、计划销售额、计划完成率。 虽然数据仓库的基础是规范化的数据模型,规范化数据模型在数据仓库的实际应用中并不理想。关系模型在传统的操作型数据库系统中获得了巨大的成功,但以E-R图展示的关系模型不适用于以查询为主的数据仓库系统。在完全规范化的环境中,数据模型形成的数据表的数据量都是比较小的,为完成对这些“小”表的处理需要应用程序对这些表进行动态互联操作,这需要在不同表之间进行多个I/O操作,对于数据量十分庞大的数据仓库,这种多表连接操作的时间代价太大,对决策效率的提高非常不利。 因此在数据仓库中需要进行数据的非规范化的处理,以减少对表联接的需求,提高数据仓库性能,提高查询效率,同时也减少编写专门决策支持应用程序的必要性,可以让用户运用一些专门的查询工具,更容易地访问数据,用户还能以直观的易于理解的工具查看数据。因此,在数据仓库的模型构建中,有时为了提高数据仓库的运行效率,需要进行数据模型的反规范化处理。因为数据仓库属于分析型应用系统,系统的使用者是分析人员、决策人员,对他们而言,记住实体-关系及其属性是不可能的,因此系统的分析操作难以从具体的属性入手进行,而要基于集成或某种主题来组织数据。分析型应用需要的是快速、灵活、直观的数据检索也是关系模型无法支持的,这就要求寻找新的数据模型。 数据仓库数据模型设计的核心问题是多维数据的表示与存储的问题,因此多维数据模型成为当前数据仓库数据模型设计时的首选。多维数据建模以直观的方式组织数据,支持高性能的数据访问。多维数据模型较为普遍地采用星型模型、雪花模型的模式。 1.星型模型 星型模型是一种多维的数据关系,它由一个主题事实表(Fact Table)和一组维表(Dimens ion Table)组成。每个维表都有一个维主键,所有这些维主键组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实 (Fact),它们一般都是数值或其他可以进行计算的数据;而维主键大都是文字、时间等类型的数据。Adventure Works Cycles公司销售分析星型图如图2.6所示。 销售分析 时间 客户 产品 区域 广告 图2.6 Adventure Works Cycles公司销售分析星型图 星型模型特点分析: 星型模型速度快是在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。因此,在星型模式设计的数据仓库中,作报表的速度很快。 由于存在大量的预处理,其建模过程相对来说就比较慢。当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有维表的主键组成,这种维的变动将是非常复杂、非常耗时的。星型模式另一个显著的缺点是数据的冗余量很大。星型模式比较适合于预先定义好的问题,如需要产生大量报表的场合;而不适合于动态查询多、系统可扩展能力要求高或者数据量很大的场合。因此,星型模式在一些要求大量报表的部门数据集市中有较多的应用。 2.雪花模型 雪花模型是对星型模型的扩展。设计星型模型时确定了概念模型中的指标实体和维度实体,当构成星型模型后,为了对相关维度进行更加深入的分析,经常要设计雪花模型,在星型模型的维度实体增加需要进行深入分析的详细类别实体。雪花模型对星型模型的维度表进一步标准化,对星型模型中的维表进行了规范化处理。雪花模型通过对维表的分类细化描述,对于主题的分类详细查询具有良好的响应能力。但由于雪花模型的构造在本质上是一种数据模型的规范化处理,会给数据仓库不同表的联接操作带来困难。Adventure Works Cycles公司销售分析雪花模型如图2.7所示。 销售分析 时间 客户 产品 区域 广告 产品类别 图2.7 Adventure Works Cycles公司销售分析雪花模型图 完成概念模型设计以后,必须编制数据仓库开发的概念模型文档,并对概念模型进行评价。 1.概念模型设计文档 2.概念模型的评审 3.概念模型评审人员 4.概念模型的评审内容 2.3 数据仓库的逻辑模型 逻辑建模是数据仓库建模中的重要一环,是概念模型到物理模型转换的桥梁。它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用,它通过实体和关系勾勒出整个企业的数据蓝图。 数据仓库的数据模型与传统数据库相比,主要区

文档评论(0)

xx88606 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档