网站大量收购闲置独家精品文档,联系QQ:2885784924

创建数据仓库的方法.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
创建数据仓库的方法

创建数据仓库的方法、模型与步骤 一、 引言 随着计算机技术的飞速发展和企业界不断地提出新的需求,数据仓库技术应运而生。传统的数据库技术是以单一的数据资源为中心,同时进行从事务处理、批处理到决策分析的各种类型的处理。 近年来,人们逐渐认识到计算机系统中存在着两类不同的处理:操作型处理和分析型处理(或信息型处理)。操作型处理也叫事务处理,是指对数据库联机地进行日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的。对此,人们关心的是响应时间、数据的安全性和完整性。分析型处理则用于管理人员的决策分析。例如SS、EIS和多维分析等,经常要访问大量的历史数据。 二者的巨大差异使得操作型处理和分析型处理的分离成为必然。于是,数据库由操作型环境发展为一种新环境:体系化环境。体系化环境由操作型环境和分析型环境(数据仓库级、部门级、个人级)构成。数据仓库是体系化环境的核心,它是建立决策支持系统(DSS)的基础。 二、 数据仓库的系统设计方法:CLDS 数据仓库的数据是面向主题的。数据以数据模型中所定义的各个主题域为基础,与应用相独立。主题域又可分为表示企业中一系列基本实体的主题,以及表示实体间联系的主题。 正是由于数据仓库中的数据是面向主题的,从而决定了其设计由数据驱动。传统的操作型环境则是面向应用、由需求驱动的。在操作型环境中,业务过程和规则比较规范和固定。系统设计人员能够清晰地了解应用的需求和数据流程。系统的设计一般采取系统生命周期法(SDLC-Systems Development Life Cycle)。 而在分析型环境中,DSS分析员一般是企业的中上层管理人员,他们对决策分析的需求不能预先做出规范说明。他们对开发人员说:让我看看我能得到什么,然后我才能告诉你我真正需要什么。 数据仓库应该在极大量的数据中为用户提供有用、及时、全面的信息,以帮助用户做出正确的决策。所以数据仓库的系统设计采取与系统生命周期法相反的方法,称为CLDS(与SDLC相反)。CLDS由数据开始,对已有的数据进行集成,生成各个主题域,然后根据数据来编制程序。用户根据查询和分析的结果,将需求反馈给开发人员。 数据仓库的系统设计是一个动态的反馈和循环的过程。一方面数据仓库的数据内容、结构、粒度、分割以及其它物理设计根据用户所返回的信息不断地调整和完善,提高系统的效率和性能。另一方面,通过不断地理解需求,使得最终用户能做出更准确、更有用的决策分析。 三、数据仓库的数据模型 数据模型是对现实世界进行抽象的工具。操作型环境和分析型环境的数据模型均由整体数据模型发展而来。整体数据模型仅含有原始数据。从整体数据模型到操作型数据模型的变化是很少的,两种数据模型基本等价,只是在操作型数据模型中增加了一些性能因素,以提高系统的性能。而数据仓库的数据模型的变化却很大:首先删除了那些纯操作型的数据;其次,扩充了码结构,增加了时间属性;并增加了一些导出数据;最后,操作型环境中数据的完整性在数据仓库中被转化为由artifact实现。 有文献提出了数据仓库中三级数据模型的概念:高级别的模型,即ERD(Entity-Relationship Diagram);中级别的模型,称为DIS(Data Item Set———数据项集合);低级别的模型,即物理数据模型。 当前的数据仓库一般建立在RDB的基础上,我们认为该三级模型可通过ERD和关系模型实现。ERD的设计是很重要的一步,它属于概念模型,独立于具体的系统,它描述了企业内的实体和联系,即主题域,是企业最高层次的抽象。整体ERD由各分ERD综合而成,不仅消除了分ERD之间的不一致,而且消除了不必要的冗余。ERD在逻辑上实现了数据仓库集成和面向主题的特点。下一步是设计数据仓库的逻辑数据模型,扩充每个主题域,以得到主码(包括时间主属性)和各属性,并实现主题域之间的联系。物理数据模型设计要确定数据仓库在物理设备上的存储结构和存取方法,这与具体的系统是有关的。 四、提高数据仓库的性能 建立数据仓库过程中的一个重要问题是系统的性能。 提高系统性能尤其是系统的物理I/O性能,是数据仓库设计人员的一个重要目标。这是由于I/O常常成为影响系统性能的瓶颈。在数据仓库的设计中,应使得每次I/O返回尽量多的纪录。事实上,数据仓库中的数据量很大,但数据极少甚至不再更新,所以数据仓库的物理设计有着自己的特点。 1.划分粒度 对数据仓库开发者来说,划分粒度是设计过程中最重要的问题之一。所谓粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,级别就越低;数据综合度越高,粒度越大,级别就越高。在传统的操作型系统中,对数据的处理和操作都是在详细数据级别上的,即最低级的粒度。 但是在数据仓库环境中,主要是分析型处理,粒度的划分将直接影响到数据仓库

文档评论(0)

xy88118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档