第2章数据仓库基本原理(免费阅读).pptVIP

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章数据仓库基本原理 本章目标: (1)掌握数据仓库的体系结构 。 (2)掌握数据仓库中数据的组织形式。 (3)掌握数据仓库中的关键概念 。 (4)掌握数据仓库的数据模型 。 (5)掌握数据仓库的ETL过程。 数据仓库基本原理 2.1数据仓库中的关键概念 2.2数据仓库的数据组织形式 2.3数据仓库的体系结构 2.4数据仓库的数据模型 2.5数据仓库的ETL过程 2.1数据仓库中的关键概念 外部数据源 数据抽取 数据清洗 数据转换 数据加载 元数据 数据集市 数据粒度 2.1数据仓库中的关键概念 外部数据源 从系统外部获取的同分析主题相关的数据。 数据抽取 数据仓库按分析主题从业务数据库抽取相关 数据的过程。 数据清洗 在放入数据仓库前将错误的、不一致的数据予以更 正或删除,以免影响DSS决策的正确性。 2.1数据仓库中的关键概念 数据转换 将不同格式的数据转换成统一的数据格式。 数据加载 把清洗后的数据装入数据仓库的过程。 元数据 关于数据的数据。 2.1数据仓库中的关键概念 数据集市 面向企业中的某个部门(主题)而在逻辑上或物 理上划分出来的数据仓库中的数据子集成为数据 集市。 数据粒度 数据仓库的数据单位中保存数据的细化程度或综 合程度的级别。细化程度越高,粒度级别越低; 细化程度越低,粒度级别越高。 2.2数据仓库的数据组织形式 1、数据仓库的数据组织结构 2、粒度与分割 3、数据仓库的数据组织形式 4、数据仓库的数据追加 数据仓库的数据组织结构 数据仓库的数据组织结构 数据粒度与数据分割 数据粒度与数据分割 数据仓库的数据组织形式 数据仓库的数据组织形式 数据仓库的数据组织形式 数据仓库的数据组织形式 数据仓库的数据组织形式 数据仓库的数据组织形式 数据仓库的数据追加 数据仓库的数据追加 数据仓库的数据追加 数据仓库的数据追加 数据仓库的数据追加 2.3数据仓库的体系结构 数据仓库的体系结构 数据仓库的体系结构 数据仓库的体系结构 2.4数据仓库的数据模型 2.4数据仓库的数据模型 2.4数据仓库的数据模型 2.4数据仓库的数据模型 2.5数据仓库的ETL过程 2.5数据仓库的ETL过程 * * 对于一项好的决策,不但需要系统内部的信息,还需要来自系统外部的相关信息。比如,某超市的采购部门要确定采购订货单,不但要了解超市内部货品的销售情况,还需要了解市场上各种商品的价格、质量、竞争对手的采购信息等。因此,一个好的决策支持系统必须综合考虑系统内部和外部的相关数据。 从数据仓库的角度来看,并非业务数据库中的所有数据都是决策支持活动所必需的。通常数据仓库按照分析主题来组织数据,我们只需要抽取系统分析所必需的那一部分数据。例如,某超市确定以分析顾客的购买行为为主题建立数据仓库,则只需将同顾客购买行为相关的数据抽取出来,而超市员工的数据没有必要放进数据仓库。 由于业务系统可能使用不同的数据库厂商的产品,各种数据库产品的所提供的数据类型可能不同,因此需要将不同格式的数据转换成统一的数据格式。 市场发展趋势的分析主题主要由市场部门的人员使用,可以将这部分数据在逻辑上或者物理上分离出来,当市场部门使用数据时,无须到数据仓库的巨量数据中进行检索,而只需在这些数据上进行分析,因此从处理效率的角度出发,这种划分是合理的。 高细节级:低粒度级 例如,一位顾客一个月内的每个电话的细节。 低细节级:高粒度级 例如,一位顾客一个月内的电话的综合。 元 数 据 高度综合级 轻度综合级 当前细节级 早期细节级 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。由此可见,数据仓库中存在着不同的综合级别,一般称之为粒度。粒度越大,表示细节程度越低,综合程度越高。 第一种粒度:对数据仓库中的数据综合程度高低的度量,它影响数据仓库中数据量的多少,也影响所能回答问题的种类。 第二种粒度:样本数据库采样率的高低,是针对数据挖掘的。(采样粒度不同的样本数据库可以有相同级别的综合级别。) 细节问题:“张三在某时某地是否给李四打过电话”。 综合性问题:“张三去年一共打了几次长途电话”。 在数据仓库中,多重粒度是必不可少的。由于数据仓库的主要作用是DSS分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。 样本数据库是以一定的采样率从细节档案数据或轻度综合数据中抽取的一个子集。样本数据库的粒度级别不是根据综合程度来划分的,而是根据

文档评论(0)

peain + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档