数据挖掘第2章6.pptVIP

  • 35
  • 0
  • 约8.29千字
  • 约 36页
  • 2018-05-04 发布于四川
  • 举报
第2章数据仓库开发模型 在创建数据仓库之时,需要使用各种数据模型对数据仓库进行描述。数据仓库的开发人员依据这些数据模型,才能开发出一个满足用户需求的数据仓库。使开发人员能够将注意力集中在数据仓库开发的主要部分。模型有更好的适应性,更易于修改。当用户的需求改变时,仅对模型做出相应的变化就能反映这个改变。 2.1 数据仓库开发模型 模型是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程。 数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂——元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。 2.2 数据仓库概念模型 2.2.1 概念数据模型 尽管在数据仓库的设计过程中可以采用为业务数据处理系统设计所用的数据模型作为设计框架,但是在实际设计中用于数据仓库设计的数据模型与业务数据处理系统的三级数据模型仍有一定的差距。 1、数据类型的差距 数据仓库的数据模型中不包含操作型的数据,数据仓库的数据模型只包含用户所感兴趣的分析数据、描述数据和细节数据。 2、数据的历史变迁性 数据仓库的数据模型扩充了关键字结构,增加了时间属性作为关键字的一部分 。 3、数据的概括性 数据仓库的数据模型中还增加了一些由基本数据所导出的衍生数据,这些导出的衍生数据主要用于对企业的管理决策进行分析 。 指标实体(事实实体) 2.2.2 规范的数据模型 2.2.3 星型模型 2.2.4 雪花模型 2.3 数据仓库的逻辑模型 2.3.1 事实表模型设计 2.3.2 维模型设计 2.4 数据仓库的物理模型 2.4.2 数据仓库物理模型的索引构建 2.4.2 数据仓库物理模型的索引构建 2.4.3 数据仓库物理模型的优化问题 2.5 数据仓库的元数据模型 2.5.2 元数据在数据仓库中的作用 2.5.3 元数据的收集 2.6 数据仓库的粒度和聚集模型 2.6.1 数据粒度的划分 2.6.2 确定粒度的级别 2.6.3 数据仓库的聚集模型确定 2.6.4 聚集模型的处理 2.6.5 聚集模型的管理 练 习 1.在一般的信息管理中采用哪些概念模型来描述信息处理的对象,这些概念数据模型是否适合数据仓库的开发环境? 2.航空公司希望能够分析在其服务旅客中的常客旅行趋势,这样可以为公司正确定位航空市场中的常客市场。并且希望能够跟踪不同航线上旅客的季节变化情况和增长,并跟踪在不同航班上所消费的食品和饮料情况,这样可以帮助航空公司安排不同航线上的航班和食品供应。现在所面对的任务是为其设计一个数据仓库的概念模型、逻辑模型和物理数据模型。 3.为建立第2题中的数据仓库,需要哪些元数据?这些元数据在不同的阶段应该发挥什么作用? 4.第2题中航空公司希望能够将旅客数据至少保持三年,公司每天有100条航线,共300架次飞行,每架次的旅客平均为100人。每架次的食品种类有50种,前后共采购过1000种。食品受到季节影响较大,每年的食品价格呈现一种周期性变化。食品的详细数据只需一年就可以。请为航空数据仓库设计一个合适的数据粒度模型。 考虑因素: 要接受的分析类型、可接受的数据最低粒度和能存储的数据量。 粒度的层次定义越高,就越不能在该仓库中进行更细致的分析。 在同一模式中使用多重粒度。 如果存储资源有一定的限制,就只能采用较高粒度的数据粒度划分策略。 粒度的确定实质上是业务决策分析、硬件、软件和数据仓库使用方法的一个折衷。 数据粒度划分策略一定要保证数据的粒度确实能够满足用户的决策分析需要,这是数据粒度划分策略中最重要的一个准则。 聚集数据主要是为了使用户获得更好的查询性能 聚集模型设计时应该注意将聚集数据存储在其事实表中,并与其底层数据相区别。 设计聚集模型时,首先需要考虑用户的使用要求。其次要考虑数据仓库的粒度模型和数据的统计分布情况。 数据仓库的聚集模型的设计与数据仓库的粒度模型紧密相关 建立聚集模型时还需要考虑作为聚集属性的数量因素 (1)聚集事实表已经独立存在并且可以与基本事实表一同保存 。 (2)通过将当前加载数据添加到系统中的累积“桶”中 ,可以创建某时间段的聚集。 (3)将数据的聚集与数据仓库的加载过程组合为同

文档评论(0)

1亿VIP精品文档

相关文档