第5章数据仓库的工具.pptVIP

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章数据仓库的工具

第5章 数据仓库的工具 本章要点: 如何选择数据仓库产品 一般数据仓库产品的组成 常见的数据仓库产品 5.l数据仓库产品选择 5.1.1 数据仓库产品的组成 5.1.2 数据仓库产品应具备的关键技术 5.1.3 数据仓库的发展趋势 5.1.4 如何选取数据仓库工具 5.l.l数据仓库产品组成 数据集市 关系数据库 数据源 数据准备区 各种服务工具等等。   1.数据集市 数据集市是数据仓库的子集,是按主题从数据仓库中划分出来的数据集合。 数据集市通常按职能部门为单位为其提供数据,例如,销售部门、财务部门、库存部门等的数据集市。由于数据集市中只包含面向某个主题的数据,因此数据量比较小,方便与各种分析工具建立连接,利于用户使用。   2.关系数据库 关系数据库是数据仓库中非常重要的组成部分,数据仓库要想发挥出真正的威力必须由关系数据库为其提供强大的基础引擎。 在数据仓库的应用过程中关系数据库为其提供了许多必不可少的功能,如在数据准备数据库中临时储存、清理、转换传入的数据;为数据仓库提供存储引擎、快速传输和修改、以及灵活的索引机制,容纳和管理数据仓库中海量的数据并支持数据集市。   3.数据源 使用数据仓库的最根本目的是为了向企业决策者提供各种决策信息,因此数据仓库必须要将企业内部或外部的各种信息集中起来,合并为一致的数据集。 这些数据的来源各不相同,可以来自关系型数据库中的数据,也可以来自各种电子表格,甚至是文本数据。在一个大型企业中通常会存在多个OLTP系统来捕获日常业务运作情况,这些OLTP系统由不同的部门设计并使用不同的数据结构和数据元素,虽然这些数据源的数据不能直接用于决策支持,但是也必须将它们捕获到数据仓库中,因为这些长期积累的数据是建立数据仓库的重要基础   4. 数据准备区 数据仓库从不同的数据源抽取数据后,需要对这些数据进行清理和格式化以保证与其他保存在数据仓库中数据的一致性。数据准备区又被称为数据中间存储区,实际上数据准备区也是一个关系型数据库,数据仓库从其他数据源提出的数据首先要保存在这个关系型数据库中,在这里将数据转化为数据仓库要求的统一格式,并检查数据的一致性和引用完整性,并准备装载入数据仓库的数据库中。 通常情况下,数据准备区和数据仓库是分开的,但是如果对数据的清洗和转换操作不影响到数据仓库为最终用户提供服务的性能,数据准备区和数据仓库也是可以合并在一起的。   5.服务工具 建设数据仓库的目的是为决策者提供必要的决策数据,因此根据决策者的要求为了提供决策者所需要的信息,数据仓库必须使用相关工具来帮助它分析和评估数据仓库中浩瀚的数据,例如在线分析处理(OLAP)、数据挖掘工具、预定义报表等等。另外,数据仓库也必须留有相关的应用程序接口(API)以支持用户开发自定义的数据仓库服务工具。 5.1.2数据仓库产品应具备的关键技术 1.海量数据的管理能力 数据仓库为了支持决策分析存储了海量的数据以用来分析计算,因此数据仓库产品中最关键的技术就是如何来管理这些海量的数据,通过索管理、有效溢出管理等技术能够实现对数据仓库中大量数据的管理要求,通常用户在选购数据仓库产品时首先考虑的就是数据仓库产品对海量数据的管理能力能否满足自身的要求。 2.强大的索引管理功能 一个高质量的数据仓库产品必须能够对数据进行方便快捷高速高效的访问,这就要求数据仓库产品能够使用索引技术建立适当的关键数据索引,如二级索引、临时索引、稀疏索引等索引技术,同时还要能够保证建立、使用和管理这些索引所付出的代价不能太高。 5.1.2数据仓库产品应具备的关键技术 3.对数据的监控能力     如果数据仓库产品希望在大型的应用环境中使用,那么它必须具备对数据的监控能力。在数据仓库运行的过程中,数据监控组件要一直对数据仓库中的数据进行实时的监视,通过收集数据访问信息区分出那些数据是经常被使用的,那些是很少被使用的、那些索引建立的不恰当、那些数据应该进行重新的分类组合等等。而且数据监控组件还要对硬件系统资源的使用情况进行跟踪监控,如内存和cpu的使用率、硬盘空间的剩余情况、并发用户的数据、并发线程的数量等。  5.1.2数据仓库产品应具备的关键技术 4.对多种存储介质的管理能力    在数据仓库中有很多因素会影响到数据存储介质的选择问题,如数据的使用率、数据粒度的选择等等,对于那些经常使用的数据必须存放在存取数据很快的介质上以提高数据仓库系统的反映时间,但通常来说,存储介质速度的快慢要与其价格成正比,这样对于那些不会被经常使用到的数据就需要放在低速介质上来降低整体成本。因此数据仓库产品必须能够提供对多种不同存储介质的管理能力,这也是实现数据仓库存储多样性的必然要求。      在目前常用的存储

文档评论(0)

zsmfjh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档