数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅第3章.ppt

数据仓库与数据挖掘原理及应用(第二版) 教学课件 ppt 作者 王丽珍 周丽华 陈红梅第3章.ppt

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 数据仓库模型设计及数据仓库建立 第三章 目录 3.0 相关概念 3.1 数据仓库的概念模型设计 3.2 数据仓库的逻辑模型设计 3.3 数据仓库的物理模型设计 3.4 数据仓库的建立过程 3.5 提高数据仓库性能 3.6 本章小结 3.0 相关概念 数据模型是对现实世界的反映和抽象,它可以充分体现用户的业务需求,清楚地表达各个部门之间的相关性,有效地消除冗余数据。 数据仓库模型包括概念模型、逻辑模型和物理模型。 概念模型描述的是客观世界到主观世界的映射。 逻辑模型描述的是主观世界到关系模型的映射。 物理模型描述的是关系模型到物理实现的映射。 3.1 数据仓库的概念模型设计 3.1.1 E-R模型 3.1.2 面向对象的分析方法 3.1.1 E-R模型(1) 在概念模型中,最常用的表示方法是E-R法(实体-联系法),这种方法用E-R图作为它的描述工具。 E-R图描述的是主题以及主题之间的联系。如图3.1所示。 3.1.1 E-R模型(2) 任务和环境的评估 结合用户的现状来明确数据仓库的目标任务,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”。 需求的收集和分析 考虑决策者的决策类型、决策者感兴趣的问题、解决这些问题所需要的信息、这些信息的来源。 主题选取,确定主题间关系 主题选择的原则包括: 优先实施管理者目前最迫切需求、最关心的主题。 优先选择能够在较短时间内发生效益的决策主题。 推后实施业务逻辑准备不充分的主题。 推后考虑实现技术难度大、可实现性较低、投资风险大的主题。 3.1.1 E-R模型(3) 主题内容描述 主题的公共码键。 主题之间的联系。 主题的属性。 E-R图 长方形表示主题,在框内写上主题名; 椭圆形表示主题的属性; 用无向边把主题与其属性连接起来; 用有向边表示主题之间的联系:单向边表示一对多的关系,双向边表示多对多的关系,无向边表示一对一的关系。举例如下: 3.1.1 E-R模型(4) 例: 建立中医方剂数据仓库。 方剂中的信息可以分为两部分:一部分是药物的配比,即需要哪几味中药,每种药材各需要多少;另一部分则是其主治的病症,这两部分信息被方剂有机地联系在一起。药物的配比是由药理决定的,而病症的规则又是与病因和发病的机理密切联系,要分析方剂,就不可能不研究这两方面的信息。因此可以确定主要的主题为方剂主题——用于分析药物间的配伍规律;药物主题——用于分析药理;病症主题——用于分析各种临床表现间的关联关系及症型识别,所需的数据为方剂数据、药物数据、病症数据。 3.1.1 E-R模型(5) 一种药物可以在多首处方上出现,一首处方可以包含多种药物,因此“处方”主题与“药物”主题之间是多对多的方药关系;一首处方可以治疗多种病症,一种病症可以使用多首处方来治疗,因此“处方”主题与“病症”主题之间也是多对多的方症关系。对各主题的属性信息的描述如表3.1所示。 3.1.1 E-R模型(6) 中医方剂数据仓库的E-R概念模型见图3.2。 3.1.1 E-R模型(7) E-R图的优点: 对客观世界的描述能力较强,具有良好的可操 性,形式简单直观,易于理解,便于与用户交流。 E-R图的缺点: 主题之间的关系只包括一对多和多对多,这在某些错综复杂的关系面前就显得表达能力有限 ,且对企业模型进行静态的描述,对于企业动态运作处理的描述无能为力。 3.1.2 面向对象的分析方法(1) 采用面向对象方法进行概念模型设计时,E-R模型中的实体、实体的属性、实体间的关系分别转化为面向对象系统中的类、类的属性、类间的关系。面向对象方法的概念模型设计过程如图3.3所示。 3.1.2 面向对象的分析方法(2) 类是对某种类型事物的抽象,它将这类事物所具有的共同特征(包括操作特征和存储特征)集中起来,以说明这类事物的能力和性质。 类常用的图形表示方法是类表。类表由名称、属性集合、动作集合三部分组成,如图3.4所示。 3.1.2 面向对象的分析方法(3) 类之间存在的三种关系: 继承。继承是指从某个类中派生出具有诸多相同属性的子类,被派生的类称为基类。子类具备基类的一切属性,同时又具备了与其他子类不同的特征属性。 包容。包容是某个类包含了其他的类。

您可能关注的文档

文档评论(0)

带头大哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档