数据仓库与数据挖掘 第三章.ppt

  1. 1、本文档共120页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 第三章

第三章 数据仓库设计 第三章 数据仓库设计 第三章 数据仓库设计 BILL INMON 于1998年在一个著名商贸杂志上说:“今年IT经理们面对的最重要的问题就是到底是先建立数据仓库还是先建立数据集市。” 构建数据仓库两种不同的基本方法: 自顶向下 自底向上 第三章 数据仓库设计 第三章 数据仓库设计 自上而下 优点: 可以从整个企业的角度来看待数据; 有机的结合----不是由彼此分离的数据集市组成 对数据内容惟一、集中的存储; 集中控制和集中的规则; 对反复的查询能够做出快速的反应; 缺点:需要花较多的时间建造;失败的风险很大; 需要高水平的综合技能;费用很高; 第三章 数据仓库设计 自下而上 优点: 实施快速而方便; 良好的投资回报; 失败的风险较小; 渐进地,可以先建立重要的数据集市; 项目团队可以从中学习和成长; 缺点:每一个数据集市对数据的视角都比较窄;每个数据集 市都有多余数据;总是有矛盾和不一致的数据;增加 无法管理的接口。 第三章 数据仓库设计 结合二者的折中方法看来可行。主要推崇者是ralph kimball(著名的数据仓库专家)。 步骤: 从整个公司的角度来计划和定义需求; 为完整的仓库创造一个体系结构; 使数据内容一致而且标准化; 将数据仓库作为一组超级数据集市来实施,每次一个。 数据集市就是整个数据仓库系统的逻辑子集。数据仓库就是一致化了的数据集市的集合。 数据仓库系统设计与数据库设计的不同:? 1.系统设计的目标不同: 数据库是面向事务型处理的,所以事务型处理性能是系统设计的一个主要目标。 而数据仓库是为了支持决策分析而建立的一种数据存储集合。在系统设计时,更关心的是建立起一个全局一致的分析型处理环境来支持企业的决策分析。 数据仓库系统设计与数据库设计的不同:? 2.面向的需求不同: 数据库系统是面向应用的,所以在系统设计时应以此为出发点和基础。 而在决策分析时,决策者分析问题的角度多种多样,所以数据处理流和信息流不固定,甚至决策者对所要进行的分析处理都不太明了,数据的分析处理的需求更灵活。这就决定了在数据仓库系统设计时,不可能从用户需求出发来进行设计。 数据仓库系统设计与数据库设计的不同: 3.数据来源不同: 数据库系统中数据是从企业外部通过输入得到的,所以系统设计时就是设计如何与外部对话得到数据,如何存储这些数据,它关心的是数据的安全性和完整性等。 数据仓库中的数据大部分是从企业内部的数据库系统得到的,还有一部分是企业外部的非结构化数据,这些数据都是安全可靠且正确有效的,所以在系统设计时它关心的不是数据的安全性和完整性,而是数据的一致性。 数据仓库系统设计与数据库设计的不同: 4. 数据的处理类型不同: 数据库系统支持的是事务型处理,主要指数据的增、删、改、查等等,系统设计时都是针对某一具体应用。 数据仓库是面向分析的,它的数据处理大都是对数据的复杂查询,所以在设计时考虑的是如何更好的面向主题,如何提高查询的效率等。 数据仓库系统设计与数据库设计的不同: 5. 设计方法不同: 由于在数据库系统中业务过程和规则比较规范固定,系统设计人员能清楚的知道应用需求和数据流程,所以系统设计一般采用系统生命周期法(Systems Development Life Cycle ,SDLC)。 在决策分析时,决策人员往往无法给决策需求一个规范的说明,只能给出一个模糊的描述,对这种需求不确定的开发过程,设计方法有很大的不同,采用与SDLC相反的CLDS法。 操作型环境系统的设计一般采取系统生命周期法:(SDLC-Systems Development Life Cycle) 数据仓库的设计方法:CLDS方法(与SDLC相反) 数据驱动的系统设计方法: 创建数据仓库的工作是在原有的数据库基础上进行的,那么在原有的数据库系统中有什么呢?有数据,还有对数据的处理即应用。 不论是在数据库系统中,还是在数据仓库环境中,一个企业的数据是固定的,但数据的处理则是特殊的,对同一数据的处理,在企业的不同部门是不同的,在数据库系统和数据仓库系统中也是不同的。 数据驱动的系统设计方法: 因此,创建数据仓库的工作是在原有的数据库基础上进行的,这“基础”也只能是原有数据库中的数据,即从已经存在于操作型环境中的数据出发来进行数据仓库的建设工作 这种从已有数据出发的数据仓库设计方法称为“数据驱动”的系统设计方法。 “数据驱动”系统设计方法的思路 利用以前所取得的工作成果(的数据、代码)来进行系统建设,要能识别出当前系统设计与已做工作的“共同性”。

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档