网站大量收购独家精品文档,联系QQ:2885784924

01数据仓库基础.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库基础 主题 商业智能技术 数据仓库与多维模型 设计数据仓库 设计多维模型 商业智能的体系 数据仓库定义 数据仓库的特点 面向主题 集成性—企业数据框架 历史性、稳定性 数据仓库与业务数据库的比较 什么是联机分析处理(OLAP)? OLAP的定义 OLAP是使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。 OLAP的特征 OLAP的核心——指标、维 OLAP的目标——多维分析 OLAP的特点 灵活、动态 多角度、多层次的视角 快速 OLAP的基本功能 商业语义层的定义 上钻和下钻(Roll up or Drill down) 切片和切块(Slice and Dice) 旋转(Pivoting) 强大的复杂计算能力 时间智能 丰富的数据展现方式 OLAP功能示意 数据挖掘技术(Data Mining) DM的定义 数据挖掘(Data Mining)是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。也就是说,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 DM的特点 涉及数据库、统计分析、人工智能多种技术 预测和验证功能 特征和规律描述 主题 商业智能技术 数据仓库与多维模型 数据仓库设计 多维模型设计 数据仓库与多维模型概述 多维模型与数据仓库 多维模型通过组织和汇总数据仓库中的数据而为分析查询提供一种多维的表现方式。数据仓库是多维数据集的数据基础,其结构的设计会影响多维数模型的设计和建立的难易程度。 主题 商业智能技术 数据仓库与多维模型 数据仓库设计 多维模型设计 数据仓库设计原则(一) 模型构架 尽量使用星型架构,使用雪花架构的目的是使事实表第一级的维表数量达到最小。 设计方法 将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到单一维度表中,而且在多个维度表中数据不应重复。 维表设计 设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和大小。 事实表设计 不要在事实数据表中进行过度的汇总,以保证在必要时可以进行所需粒度的数据访问。 数据仓库设计原则(二) 数据存储方式 在必要时可以把要在同一个多维数据集中使用的数据存储在多个事实数据表中,条件是这些事实数据表必须具有相同的结构。 索引 在关键字段上创建索引,以提高处理多维数据集的性能。 特殊要求 根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。 增量更新 必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。 数据仓库基本元素(一) 关系型数据库 关系数据库是建立数据仓库的基础引擎平台,它为数据仓库提供临时存储、清理和转换传入的数据,容纳和管理数据仓库中的大量数据,并支持数据仓库的功能。 数据源 数据源是数据仓库用于分析的数据来源,是建立数据仓库时必须聚集和合并的不同来源的数据。 数据仓库基本元素(二) 事实表 事实表是用于存放经过汇总的历史信息,也就是事实数据的表,是星型架构或雪花型架构的中心。每个数据仓库或数据集市都包括一个或多个事实表。事实表一般不包含描述性信息,具有可以聚合的特点。 维表 维度表是存储描述事实表中事实数据特性的表,每个维表都是独立于其它维表的,并且包含了事实特性的层次结构信息。 索引 与在任何关系数据库中一样,索引对提高数据仓库性能和处理多维数据集性能的起着重大作用,是数据仓库中不可或缺的部分。 数据仓库组织形式(一) 星型模型 星型模型是由单个事实数据表和一些维度表组成的构架模型。在这种模型中每个维度表均联接到事实数据表上。 数据仓库组织形式(二) 雪花型模型 雪花型架构比星型模型增加了次要维表,有一个或多个维表是联接到其它维表上,而非事实数据表上。 数据仓库设计(一)——事实表 事实表设计 每个事实数据表都应该由两个部分组成,一个由多个部分组成的索引和一些由这些索引所描述的数据。 索引部分 索引部分包含着与描述事实数据特征的维表相关联的外键信息。 数据部分 数据部分是事实表中真正要存放的事实数据。 数据仓库设计(一) ——事实表 事实表示例: 前五列为索引部分,后三列是事实数据部分 数据仓库设计(一) ——事实表 设计事实表应注意的问题 事实表中一般不应包含描述性信息,也不应包含除事实表与维表中间对应的关联字段之外的任何数据。 事实表中的数据应该是经过适当聚合的数据 事实表中数据的粒度应该是一致的 事实表的设计应该考虑增量数据更新的需要,例如是否需要增加时间戳字段等。 数据仓库设计(二) ——维表 维表设计 维

文档评论(0)

一天一点 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档