DataWarehouse精要.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 粒度(3/4) 样本数据库粒度级别根据采样率的高低来划分 采样粒度不同的数据库可能具有相同综合级别 按照1/100对客户记录进行抽样 按照1/1000对客户进行抽样 按照1/10000对客户进行抽样 …… * 粒度(4/4) 采购表(商品号,供应商号,供应日期,供应价,…) 采购表H1(商品号,时间段1,采购总量,…) …… 采购表Hn(商品号,时间段n,采购总量,…) 销售表(商品号,顾客号,销售日期,售价,销售量,…) 销售表1(商品号,时间段1,销售总量,…) …… 销售表n(商品号,时间段n,销售总量,…) 库存表(商品号,库房号,库存量,日期,…) 库存表1(商品号,库房号,库存量,星期,…) …… 库存表n(商品号,库房号,库存量,年份,…) * 多重粒度(1/3) * 多重粒度(2/3) * 多重粒度(3/3) 应对不同级别的粒度要求 大粒度数据 快速存储设备 提高性能 小粒度数据 低速存储设备 满足细节查询 * 多维度,多层次 数据仓库是多维度多层次的 维度是观察数据对象的角度 层次是数据对象的综合程度 * 数据仓库的数据组织形式 简单堆积文件 轮转综合文件 简化直接文件 连续文件 * 简单堆积文件 * 轮转综合文件 * 简化直接文件 类似简单堆积文件,间隔一定时间的数据库快照 * 连续文件 * 数据仓库中的快照(1/3) 数据仓库内部以一种称之为“快照”的数据结构为中心来组织。数据仓库中的数据记录是某一时刻生成的快照,包含多种数据类型,通常包括: 关键字,标志快照的关键字 时间,标志事件发生的时间单元 非关键字的主要数据,与关键字相关连的主要非关键字数据 二级数据。在形成快照时偶然捕获并被置入快照中的数据 当数据量不是太大,数据稳定,并且需要详细记录历史时,通过存储已发生的每次活动的详细情况,数据仓库可以跟踪每一件业务事件。否则,需要存放集成数据 数据仓库中的快照(2/3) 快照的生成由一些离散活动的发生而触发,或由规律性的时间推移而触发 引发快照的业务事件可能是一个重要活动的发生 例如,填写支票、打电话、收到货物等 在离散活动的情况下,一般是出现了一些业务活动需要记录下来 离散活动是随机发生的 一种快照触发器是时间 例如一天的结束、一周的结束、一个月的结束 与时间相关的快照的建立是有规律的并且是可以预知的 一些例子 每当一个顾客搬迁(地址发生改变)时,数据仓库就会相应改变,而且一个连续的顾客历史记录就会写入数据仓库 假设保险金按每半年支付一次,那么,每隔六个月,就会在数据仓库中创建一个快照记录,用来描述保险金的支付情况,包括支付时间、支付金额 * * 数据仓库中的快照(3/3) 快照由四个基本的组成部分: 关键字可以唯一也可以是不唯一的,通常是复合关键字,用来识别记录和主要数据 时间单元通常是指快照所描述事情发生的时刻,有时,时间单元指的是捕获数据的时刻。(在有些情况下,会对事情发生的时刻和捕获时间信息的时刻加以区别,而在有些情况下则不对它们进行区别。)在由时间推移触发事件的情况下,时间元素可以暗含于而不是直接附于快照中 主要数据是与记录的关键字直接相关的非关键字数据。例如,假设关键字标识产品的销售,时间元素描述的是销售活动终结的时刻,主要数据描述的是销售什么产品以及销售的价格、条件、地点和代理等 作为快照一部分而被捕获的,但与主要数据和关键字都无直接关系的二级数据(可选)。二级数据表示快照记录创建时捕获的外来信息。如与销售相关的二级数据是关于被售产品的一些附带信息。将来可能会在DSS处理过程中使用到的任何附带信息都可以加入到数据仓库记录中去 * 元数据(1/2) 关于数据的数据,描述了数据的结构、内容、编码、索引等内容 通过元数据可以将数据仓库和复杂的数据源系统的变化隔离,是数据仓库开发和维护的一个关键因素,也是保证数据抽取质量的依据。 种类 关于数据源的元数据 关于数据模型的元数据 关于数据仓库映射的元数据 关于数据仓库使用的元数据 * 元数据(2/2) 元数据是数据仓库的一个重要组成部分,处于数据仓库的上层,并且记录数据仓库中对象的位置。一般,元数据存储记录了以下内容: 数据仓库程序员所知道的数据结构。 DSS分析员所知道的数据结构。 数据仓库的源数据。 数据进入数据仓库时发生的转换。 数据模型。 数据模型和数据仓库的关系。 抽取数据的历史记录。 * 关于数据源的元数据 它是现有的业务系统的数据源的描述信息。这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为: 数据源中所有物理数据结构 所有数据项的业务

文档评论(0)

四月 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档