- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1
第 三 章
数据仓库原理
2
3.1 数据仓库结构体系
3.2 数据仓库的数据模型
3.3数据抽取、转换和装载
*3.4 元数据
3
3.1 数据仓库结构体系
3.1.1 数据仓库结构
3.1.2数据集市及其结构
3.1.3 数据仓库系统结构
3.1.4 数据仓库运行结构
4
近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。
历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。
轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。
高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。
3.1.1 数据仓库结构
6
1.数据集市的产生
数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。
提供更紧密集成的数据集市就应运产生。
目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。
3.1.2 数据集市及其结构
7
数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。
Data Marts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。
2.数据集市概念
8
3.数据集市与数据仓库差别
(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。
(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。
(3)数据集市的数据组织一般采用星型模型。
大型数据仓库的数据组织,如NCR公司采用第三范式。
9
1、规模是小的
2、特定的应用
3、面向部门
4、由业务部门定义,设计和开发
5、由业务部门管理和维护
6、快速实现
7、购买较便宜
8、投资快速回收
9、更详细的、预先存在的数据仓库的摘要子集
10、可升级到完整的数据仓库
4.数据集市的特性
10
独立数据集市(Independent Data Mart)
从属数据集市(Dependent Data Mart)
11
数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。
3.1.2 数据仓库系统结构
12
1、仓库管理
(1)数据建模
数据建模是建立数据仓库的数据模型。
数据仓库的数据模型不同于数据库的数据模型在于:
数据仓库只为决策分析用,不包含事务处理的数据。
数据仓库的增加了时间属性数据。
数据仓库增加了一些综合数据。
数据仓库的数据建模是适应决策用户使用的逻辑数据模型。
13
解释
数据模型不同于数学模型:
数据模型是对数据进行组织和存储结构的描述模型。如数据库的数据模型,数据仓库的数据模型。
数学模型是对数据变量的关系建立方程的描述模型。如线性规划模型。数学模型是《运筹学》中讨论的模型。
14
(2)数据抽取、转换、装载
数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。
数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。
15
(1)查询工具
数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。
一般包含:
可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。
2、分析工具
16
(2)多维分析工具(OLAP工具)
通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。
多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。
17
(3)数据挖掘工具
从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。
18
3.1.4 数据仓库的运行结构
数据仓库应用是一个典型的客户/服务器(C/S)结构形式:
客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。
服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。
19
解释
客户/服务器(C/S)是网络上一种重要的组织形式。
数据仓库在网络上都是以服务器(Server)形式提供服务,能对网络上多个客户(Client)同时提供服务。
20
OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。
文档评论(0)