数据仓库数据指标数据治理体系搭建方法论.pdf

数据仓库数据指标数据治理体系搭建方法论.pdf

数据仓库 1、数据仓库的基本概念 数据仓库概念 英文名称为Data Warehouse ,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业 提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应 用,这也是为什么叫“仓库” ,而不叫“工厂”的原因。 基本特征 数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策。 面向主题: 传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库则是面 向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻 辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。 集成性: 通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保证了数 据仓库内的数据关于整个企业的一致性。 数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与 综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有: 要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库 内部生成的,即进入数据仓库以后进行综合生成的。 下图说明一个保险公司综合数据的简单处理过程,其中数据仓库中与“保险” 主题有关的数据来自于多个不同的操 作型系统。这些系统内部数据的命名可能不同,数据格式也可能不同。把不同来源的数据存储到数据仓库之前,需 要去除这些不一致。 非易失性(不可更新性) 数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这 些快照进行统计、综合和重组的导出数据。 数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘,一旦数 据进入数据仓库以后,一般情况下被较长时间保留。数据仓库中一般有大量的查询操作,但修改和删除操作很少。 因此,数据经加工和集成进入数据仓库后是极少更新的,通常只需要定期的加载和更新。 时变性 数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有 关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不 能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出 的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项 目,更是一个过程。数据仓库的数据随时间的变化表现在以下几个方面: (1) 数据仓库的数据时限一般要远远长于操作型数据的数据时限。 (2) 操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。 (3) 数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。 2、数据仓库与数据库的区别 数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区别。 操作型处理,叫联机事务处理 OLTP (On-Line Transaction Processing ,),也可以称面向交易的处理系统,它 是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。用户较为关心操作的响应时间、 数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段,主要用于操 作型处理,像Mysql ,Oracle等关系型数据库一般属于OLTP。 分析型处理,叫联机分析处理 OLAP (On-Line Analytical Processing)一般针对某些主题的历史数据进行分析, 支持管理决策。 首先要明白,数据仓库的出现,并不是要取代数据库。数据库是面向事务的设计,数据仓库是面向主题设计 的。数据库一般存储业务数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、密码等 简单数据即可,符合业务应用,但是不符合分析。数据仓库在设计是有意引入冗余,依照分析需求,分析维 度

文档评论(0)

1亿VIP精品文档

相关文档