3数据仓库开发模型.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3数据仓库开发模型

数据仓库与数据挖掘 蔡永明 Sm_caiym@ujn.edu.cn 第三章 数据仓库开发模型 第三章 数据仓库开发模型 模型:是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事务及其有关特征转换为信息世界的数据才能对信息进行处理与管理。这就需要依靠数据模型作为这种转换的桥梁。 设计一个能够真正支持用户进行决策的决策分析数据仓库并非一件轻而易举的事情。需要经历一个从现实环境到抽象模型,从抽象模型到具体现实的过程。 现实的决策环境→概念数据模型→逻辑模型→物理模型→数据仓库(软件/程序) 第三章 数据仓库开发模型 数据仓库开发上的困难 自顶向下的开发方法从全系统的角度提供解决方案,使得(模块)集成的问题最小;但是该方法十分昂贵,需要对组织进行长期研究和建模分析。 自底向上方法提供了更多的开发灵活性,价格便宜;但往往会遇到集成问题(每个模块单独运行都没有问题,但是一集成就出异常) 解决方法: 使用递增性、演化性的开发方法 高层数据模型?企业仓库和数据集市并行开发?通过分布式模型集成各数据集市?多层数据仓库 提纲 一、数据仓库开发模型的概念 二、数据仓库的概念模型 三、数据仓库的逻辑模型 四、数据仓库的物理模型 五、数据仓库的生成 六、数据仓库的使用和维护 七、数据仓库的粒度、聚集和分割 八、元数据 一、数据仓库开发模型的概念 现实世界:是存在于现实之中的各种客观事物,它反映了客观事物及其相互之间的关系。 概念世界:是现实情况在人们头脑中的反映,人们需要利用一种模式将现实世界在自己的头脑中表达出来,便于相互交流。 逻辑世界:是人们为将存在于自己头脑中的概念模型转换到计算机中的实际物理存储过程中的一个计算机逻辑表示模式。 物理世界:是指现实世界中的事物在计算机系统中的实际存储模式,只有依靠这一物理存储模式,人们才能实现利用计算机对现实世界的信息管理。 一、数据仓库开发模型的概念 模型:是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事务及其有关特征转换为信息世界的数据才能对信息进行处理与管理。这就需要依靠数据模型作为这种转换的桥梁。 二、数据仓库的概念模型 数据仓库概念模型的设计是给出一个数据仓库的粗略蓝本,以此为设计图纸来确认数据仓库的设计者是否已经正确地了解数据仓库最终用户的决策信息需求。在概念模型的设计中,必须将注意力集中在对商务的理解上,要保证管理者的所有决策信息需要都被归纳进概念模型。 在构建数据仓库的概念模型时,可以采用在业务数据处理系统中经常应用的实体联系模型:E-R图 二、数据仓库的概念模型 (1) 数据类型的差距 在数据仓库的概念模型中不包含操作型的数据,数据仓库的概念模型只包含用户所感兴趣的分析数据、描述数据和细节数据。 如商品的销售数量、企业的利润等是常见的分析数据; 销售时间、销售地点是用户感兴趣的描述数据; 所销售产品的详情、购买商品的客户详情.则是用户感兴趣的细节数据。 二、数据仓库的概念模型 (2) 数据的历史变迁性 数据仓库的概念模型扩充了关键字结构,增加了时间属性并作为关键字的一部分。 在数据仓库的概念模型中需要反映出组织的历史变迁、业务的发展,这就需要用时间属性来描绘这些数据,而时间属性在业务数据处理系统中是不存在的,一般业务数据处理系统只包含当前数据,不包含历史数据。 二、数据仓库的概念模型 (3)数据的概括性 在数据仓库的概念模型中还增加了一些由基本数据所导出的衍生数据,这些导出的衍生数据主要用于对企业的管理决策进行分析.这些数据在业务处理系统的数据模型中是不存在的。 二、数据仓库的概念模型 因为传统的实体关系图无法表述数据仓库中所需要的分析数据、描述数据和细节数据的关系,无法反映出时间屑性的存在与作用,更无法表现出数据的导出关系。如果将实体关系图直接用于为数据仓库开发服务的概念模型设计,就略显不便。 为解决这些问题,可以将传统的数据模型构造工具ERD稍作修改,将原ERD中的实体分成指标实体(事实实体)、维实体和详细类别实体(引用实体),这样所构造的数据模型才能反映出数据仓库所特有的概念模型特征,而不是与传统数据模型完全雷同的数据模型。利用分类实体所构成的概念模型,可以很直观地观察、理解在数据仓库中的实体和这些实体之间的关系。 二、数据仓库的概念模型 指标实体:用矩形表示。它们处于概念模型的中心,是数据仓库活动的中心。指标实体往往最后形成了数据仓库中的实体——事实表,但是在高层模型中是现实世界中的业务处理或某一事件(例如,销售、服务等)的逻辑表示。 高层模型中的指标实体体现了在现实世界中的事务处理值,这些值只与每个相关维的一个点相对应。这些值是从操作型业务系统中所获取的数据,反映了企业的真实商业活动状况。是管理人员衡量业务活动好、坏

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档