第11章数据仓11.1关于数据仓库
第11章 数 据 仓 库11.1 关于数据仓库 11.1.1 从事务数据到决策知识 DBMS的发展轨迹清晰的表明,它是在服务于联机事务处理(Online Transaction Processing,OLTP)中不断完善和丰富起来的,特别是基于E.F.Codd提出的关系理论的数据库的技术,将数据集分成了甚少冗余的实体(Entity),并利用关系(Relationship)将这些实体组织成一个有机的整体,较好地满足了OLTP的应用需求。其主要目的在于操作数据,而不在于分析数据,因此它提供了强大的数据存取、增添、删除、修改等操作的功能体系。 另一方面,由于这些数据资料十分繁杂、零乱甚至互相矛盾,而且缺乏集中存储管理和一致的应用接口,从而导致已有的数据其实也不能为预测和决策服务提供多少有用的信息。这相对于数据库系统的投入而言是一种极大的资源浪费。 1 基于事务数据库的DSS的缺陷: (1) 数据缺乏组织性。DSS需要集成的数据,全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠,DSS必须依赖数据库抽取技术进行数据的重组。抽取程序的任务是搜索整个数据库,利用某些算法和规则选择符合要求的数据,并把数据传到其他数据库中。但实际应用中,由于各种业务数据分散在异构的分布式环境中,数据源中数据会随着时间的推移而发生变化,而各个部门抽取的数据没有统一的时间基准,抽取源、抽取算法、抽取级别也各不相同,因此数据缺乏可信性,DSS的可信度和效果也随之大大降低。 (2) 业务数据本身大多以原始的形式存储,难以转换为有用的信息。事务处理的目的在于使业务处理自动化和简单化,因此数据的表达上尽可能简化以利于存储,即使是描述同一属性,在不同的库中也可能有不同的表达方式。考虑对某人“性别”的编码,在数据库A中编码为‘m’,而在数据库B编码为‘男’,则DSS分析时该如何采信这些数据。因此事务处理应用中数据的分散性、数据的不一致性,增加了DSS的推理分析问题的难度、速度以及正确性。 (3) 服务于联机事务处理(OLTP)的关系数据库是面向操作的而不是面向分析的,它首先要求数据库系统具有实时响应能力,另外数据库系统也是一个时变的系统。而一个DSS分析与推理可能需要数秒或者数小时,甚至更长的时间,如果其基于的数据在不停的变化,会导致决策分析的求解过程永远无法完成。因此本质上传统数据库是很难为数据分析提供有意义的数据的,这二者本身就是一对矛盾体。 2 DSS所期望的理想数据源: 为了满足DSS分析,需要为它提供一个独立、数据格式统一、集成了某一主题所需的全部数据、在DSS分析期间相对稳定、但又可与具体应用同步更新以保持“最新”数据的数据库。 数据格式统一:是指该数据库中同一问题的属性字段都采用同一种表达方式来描述。具有一致的命名规则,一致的变量单位,一致的编码结构和一致的特性描述等。 集成了某一主题所需的全部数据:是指用户使用数据库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域。 独立:是指该数据库与事务数据库隔离开来,割断这两者间的相互牵制。事务数据库必然要求能响应且实时响应对它的读写事务操作,而DSS分析过程是对现有数据的一个推理演算,它不需要修改数据库中的数据,否则会影响其它DSS的分析过程,因此它对于DSS而言是一个只读型的数据库。 在DSS分析期间相对稳定:是指数据一旦进入数据库,一般情况下将被长期保留,变更很少。 保持与具体应用同步的“最新”数据:是指数据库中存储的是一个时间段的数据,而不仅仅是某一个时点的数据。当数据源的信息变更后,DSS期望的数据库应该也能反映这种变更,以便基于正确的数据进行分析。 3 数据仓库的概念: 而DSS所期望的数据库正是数据仓库(Data Warehouse,DW)。它正是为了建立这种新的分析处理环境而出现的一种数据存储和组织技术。这一概念是90年代初期,由Prism Solution公司副总裁W.H.Inmon在其里程碑式的著作《Building the Data Warehouse》一书中提出的概念:“数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策”。应该说这是一个在应用需求的推动下,经过长期的孕育之后顺产出来的概念。不过我们必须明白的是,其实早在这一概念诞生之前,人们就已经开始尝试并构建数据仓库系统了。 4 数据仓库及其相关的定义: 定义1:数据仓库 W.H.Inmon将数据仓库定义为“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合”。 定义2:实化视图 通过存储
您可能关注的文档
- 第06章 制粉备及运行.ppt
- 第05讲 Widows Server安装和基本配置.ppt
- 第06章 位移09.ppt
- 第06章 带传和链传动.ppt
- 第06章 静电中的导体和电介质1.ppt
- 第06讲 合并务报表的基本原理.ppt
- 第06章RNA录与转录后加工.ppt
- 第06讲 根轨分析、频域分析、能控性和能观性分析.ppt
- 第07章 作为策者的管理者.ppt
- 第06章-直流动机的电力拖动.ppt
- 统编版2025年春季新版七年级下册历史 第21课 明清时期的科技与文化 教案.docx
- 雅安雨城法院书记员招聘考试真题库2025.docx
- 2026届安徽合肥市高考一模高考语文试卷试题(含答案详解).pdf
- 【专题研究】国内外城市更新研究的最新进展.pdf
- 【专题研究】老旧城区改造居民满意度影响因素研究——以遂宁市老旧城区改造为例.pdf
- 【专题研究】关于旧城空间改造理论与创意设计案例的几点思考.pdf
- 西藏拉萨市高三下学期期末物理备考重点详解.docx
- 泾县法院书记员招聘笔试真题2025.pdf
- 2026年春【苏教版】-六年级数学下册-面积的变化.pptx
- 2026年春【苏教版】-六年级数学下册-7.pptx
最近下载
- 病理性Q波课件.pptx VIP
- 电气控制与PLC应用技术全套课件.pptx VIP
- 穿越软硬突变地层盾构隧道管片及接头力学性能的多维度解析与工程应用.docx
- 第3课 “开元盛世”与唐朝经济的繁荣(同步教学课件)2025-2026学年七年级历史下册新授课课件.pptx VIP
- 《中国传统戏曲艺术》课件.ppt VIP
- 闽江特大桥主墩单壁钢吊箱围堰.doc VIP
- 第32讲_认定股东身份的基本规定、名义股东与实际出资人、股东的权利与义务概述、股东查阅权.pdf VIP
- 《老年社会工作》全套教学课件.pptx
- 矿山运输与提升:露天矿汽车运输PPT教学课件.pptx
- 管理学基础-第4版-张云河-1.2管理者认知.pptx VIP
原创力文档

文档评论(0)