第七章节 数据仓库.pptVIP

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第七章节 数据仓库

目前不少关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。 近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。 历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。 轻度综合数据:是从近期基本数据中提取出来的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。 高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。 元数据:???? 自顶向下开发企业仓库是一种系统的解决方法,并能最大限度地减少集成问题。然而,他费用高,需要长时间开发,并且缺乏灵活性,因为整个组织的共同数据模型达到一致是困难的。 灵活,费用低,并能快速投入使用,但以后要在这些分散的数据集市上,集成形成一个一致的企业数据仓库时,可能导致很多问题。 元数据的定义: “元数据”是数据仓库中的一个重要概念。数据仓库中的元数据在内容上和重要性上都不同于其它数据处理过程的元数据概念。元数据使得决策支持系统中的分析过程更加易于管理和使用,以及获得数据支持。 元数据在数据仓库的设计、运行中有着及其重要的作用,它表述了数据仓库中的各对象,遍及数据仓库的所有方面,是数据仓库中所有管理、操作、数据的数据,是整个数据仓库的核心。 元数据的作用不是数据字典所能相比的。它在数据仓库中有着举足轻重的作用,不仅定义了数据仓库有什么,指明了数据仓库中信息的内容和位置,刻画了数据的抽取和转换规则以及存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的,如数据的修改跟踪、抽取调度、同步地捕获历史数据等。 元数据作为一种输入输出集合可以有效地处理各种各样的数据结构。通过建立元数据管理部件来加强目前由商业工具支持的数据仓库管理需求。 ?获取:从外部或内部源数据系统获取对决策支持系统用户有用的数据。 ?过滤:过滤掉不需要的内容(如上次抽取后一直没改变的数据)。 ?验证:从DSS用户的角度验证数据的质量。 ?融合:把本次抽取的数据与数据仓库中的数据进行融合。 ?综合:对数据进行综合,生成概要级数据。 ?装载:把新数据装入到数据仓库中。 ?存档:把新装入的数据单独存为一个文件,以便减少更新操作的数据量。 数据仓库开发中最重要的设计问题之一是决定数据仓库的粒度。粒度级别的选择主要是对管理多大数据量和使用数据单元详细程度的一种折中处理,数据越详细,粒度越小,级别就越低;数据综合度越高,粒度越大,级别就越高。 虚拟数据仓库可以认为是在最终数据仓库解决方案之前的一种替代方法。这种方案是在应用层上进行研究的,其组织形式是用原有的关系表模拟多维数据,用户通过可视化的维定义工具,定义数据仓库中的各维。但在物理存储上并不实际进行数据仓库的组织,而只是在用户进行数据查询使用时,临时从网络和数据库中获取根据数据源定义的各维数据。由于采用虚拟的方式,无需建立大量的数据存储,虚拟的数据访问方式着眼于最终用户对数据的直接访问,其特点在于用户可以直接访问数据而无需作大量的分析和结构映射。由于这种数据仓库在物理上不存在独立的数据存储,虚拟数据仓库的组织灵活,实现方法比集中数据仓库简单。 显然,这种方法在速度上可能较慢,一种改进的虚拟数据仓库方法可以提高处理的速度。当一次查询要求提出后,系统将相关维的数据生成“微立方”进行存储,“微立方”的存储方法可以用前面提到的两种方式组织。那么在同类查询再次提出时,直接从“微立方”中提取数据,速度会大大提高。当然“微立方”的存储空间有限,可以使用时间戳或次数记录,定期清理那些不会经常被使用的“微立方”。 对于事实表中的每一元组包含一些指针(外键,在其它表中的主键),每个指针指向一张维表,这就构成了数据库的多维联系。相应每条元组中多维外键限定的数字测量值。在每张维表中除包含每一维的主键以外,还有其它说明该维的一些其它属性字段。维表记录了维的层次关系。 事实表包含基本的商业措施,含有大量数据。维表包含商业属性。 近年来国际新兴了一门软件技术,称为联机分析处理(On-Line Analytical Processing,OLAP)。 OLTP(联机事务处理)系统也称为生产系统,它是事件驱动、面向应用的,比如银行的储蓄系统就是一个典型的OLTP系统。OLTP的基本特点是: 1.? 对响应时间要求非常高。 2.? 用户数量非常庞大,主要是操作人员。 3.? 数据库的各种操作基于索引进行。 4.? 对数据库的事务均已预先定义,查询简单,一般不牵涉到多表连接操作。 OLAP(联机分析处理)是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。OLAP系统是跨部门、面向主题

您可能关注的文档

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档