数据仓库培训.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库 航天五院测试中心软件组 向永清 基本概念 数据仓库定义 数据仓库是一个面向决策主题的、集成的、时变的、非易失、以读为主的数据集合。 数据仓库系统的分类 Web数据仓库; 并行数据仓库; 多维数据仓库; 压缩数据仓库等。 数据仓库基本特性 面向决策主题的 数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图。 集成的 构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性。 时变的 数据存储从历史的角度提供信息.在数据仓库,隐式或显式地包含时间元素。 数据仓库基本特性 非易失的 数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发控制。通常数据仓库只需要两种数据访问:数据的初始化装入和数据访问。 以读为主的 数据仓库中的数据主要是提供决策进行查询,一般不一定都需要即时更新,可以定期刷新或按需刷新。 数据仓库体系结构 数据仓库中的几个重要概念 基本数据模式 星型模式 基本数据模式(续1) 雪花模式 基本数据模式(续2) 多维模型 Cube(D1,D2,…, Dn , M1 , M2 , …, Mm ) 数据仓库的主要应用 信息处理 支持查询和基本的统计分析,并使用表或图进行报告. 分析处理 支持基本的OLAP操作,在汇总的和细节的历史数据上操作. 数据挖掘  支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果. OLAP发展背景 60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。 1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。 操作数据库与数据仓库的区别 操作数据库系统的主要任务是联机事务处理OLTP 数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP OLTP v.s. OLAP OLTP和OLAP的区别 用户和系统的面向性: OLTP是面向顾客的,用于事务和查询处理; OLAP是面向市场的,用于数据分析。 数据内容: OLTP系统管理当前数据; OLAP系统管理大量历史数据,提供汇总和聚集机制。 数据库设计: OLTP采用实体-联系ER模型和面向应用的数据库设计; OLAP采用星型或雪花模型和面向主题的数据库设计。 OLTP和OLAP的区别(续) 视图: OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据; OLAP则相反,不仅关注本企业或组织内部的当前数据,而且更多地涉及到历史数据和其他组织的数据。 访问模式: OLTP系统的访问主要由短的原子事务组成,这种系统需要并行和恢复机制。 OLAP系统的访问大部分是只读操作。 什么是OLAP? 定义1 :OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。 定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。 OLAP相关基本概念 维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。 维的层次(粒度):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。 维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述) 多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,变量)。(时间,地区,产品,销售额) 数据单元(单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000) OLAP特性 快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。? 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计

文档评论(0)

蓝色天空 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档