8数据库与数据仓库.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 数据库与数据仓库 第一节 数据库技术 数据处理是指从某些已知的数据出发,推导加工出一些新的数据。在数据处理中,通常计算比较简单,而数据管理比较复杂。数据管理是指数据的收集、整理、组织、存储、维护、检索、传送等操作。这部分操作是数据处理业务的基本环节,而且也是任何数据处理业务中必不可少的共有部分。数据处理的目的是从大量的数据中,按照应用的需要,根据数据自身的规律及其相互联系,通过分析、归纳、推理等科学方法,利用计算机技术,提取有效的信息资源,为进一步分析、管理、决策提供依据。 第二节 数据仓库 一、数据仓库发展的由来 在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题,例如银行的储蓄系统。这属于典型的联机事务处理(OLTP)系统。联机事务处理系统只涉及当前数据,系统积累下的历史数据往往被转储到脱机的环境中。由于在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。因此,联机事务处理成为20世纪整个80年代直到90年代初数据库应用的主流。 数据库系统作为数据管理的手段,传统上主要用于事务处理。在这些数据库中已经保存了大量的日常业务数据。 企业的决策分析早期也是建立在这样的数据处理环境上进行的。 尽管数据库在事务处理方面的应用获得了巨大的成功,但它对分析处理的支持一直不能令人满意,尤其是当以业务处理为主的联机事务处理应用与以联机分析处理为主的DSS应用共存于同一个数据库系统时,两种类型的处理发生了明显的冲突。人们逐渐认识到,事务处理和分析处理具有极不相同的性质,直接使用事务处理环境来支持DSS是行不通的。 如果说传统的OLTP强调的是更新数据库——向数据库中添加信息,那么OLAP就是要从数据库中获取信息、利用信息。因此,著名的数据仓库专家Ralph Kimball写道:“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。” 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际操作中,人们却发现要获得有用的信息并非想象的那么容易。 具体来说,联机事务处理不适合DSS应用的原因概括起来主要有以下四点:第一、联机事务处理环境下的数据是分散而非集成的,业务数据往往被存放于分散的异构环境中,不易被统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第二、事务处理系统不具备数据动态集成的能力,数据源中数据发生的变化不能反映给决策者;第三、对于决策分析而言,历史数据是相当重要的,企业的事务处理一般只需要当前数据;第四、业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。 二、数据仓库的定义及特点 著名的数据仓库专家W?H?Inmon于1992年在其著作《Building the Data Warehouse》一书中给予数据仓库如下定义: 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 我们可以从两个层次予以理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库用于对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 以下对数据仓库的4个特点进行分析: 1、面向主题。传统数据库的数据组织面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题进行组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 传统数据库系统主要围绕应用和针对具体业务设计解决问题的方法和途径,组织与此相关的一段时间内的业务统计、分析工作。例如,对一个保险公司来说,应用问题包括各种各样的保险业务的处理,如汽车保险、人寿保险、健康保险、意外伤害保险等,以及月度、季度、年度报表等。数据仓库则以一个企业或组织中固有的业务主题作为处理的主体,是从整体、全局的角度来衡量这些主题在企业中的作用。同样在保险公司中,这些主题可能包括顾客、保险单、保险费以及索赔等。 2、集成的。面向事务处理的传统数据库通常与某些特定的应用相关,如财务、人事、销售、生产等系统,数据库之间相互独立,往往异构(如编码、命名习惯、实际属性、属性度量等方面的不一致,例如,对顾客的性别编码,有的系统用“男女”来表示,有的用“0”或“1”表示;再比如产品编码、人员编码等在不同的系统可能采用不同长度的字符串表示)。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除

文档评论(0)

kkko + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档