数据仓库与数据挖掘技术 第4章 OLAP技术.ppt

数据仓库与数据挖掘技术 第4章 OLAP技术.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘技术 第4章 OLAP技术.ppt

第4章 OLAP技术 主讲人:孙水华 副教授 信息科学与工程学院 内 容 OLAP概述 多维数据库及其存储 OLAP的类型 OLAP的体系结构 OLAP中的索引技术 OLAP的评价标准 OLAP的前端展现 小结 4.1 OLAP概述 4.1.1 OLAP的定义 由于关系数据库采用关系表达式来表达某种产品在某一地区的销售情况,而多维数据库则采用二维表格的方式来表达这些数据的关系,这就使二维表格比关系表达式所表达的关系更加清晰明了,而且所消耗的存储容量更少。 在关系数据库中对这些数据进行单项查询时,比较容易处理。例如,要查询上海地区所销售电器的数量只需要进行一个简单的检索就可以了。但是如果查询电器的销售总量,那就比较麻烦了,需要对关系数据库的所有记录进行查询,并且对销售数量进行汇总,此时系统的效率必然会降低,而多维数据库则只需要对库按行或列进行统计即可。其性能要远优于关系数据库。 在OLAP中,为了给用户提供一致的系统查询时间,常常将查询经常要用到的综合数据预先统计汇总,存储在数据库中,以加快查询的响应时间。为了达到这个目的,在关系数据库中就需要增加一行汇总数据,如表4-5所示。 由于关系数据库将需要进行汇总的数据均在事先完成了汇总工作,在进行查询时就不必再进行求和汇总了,只要从表中读取单个记录,就可以完成求和查询。这样的数据处理很显然可以获取快速的响应时间。但是在数据仓库中,如果历史数据庞大,这种事先的求和汇总也需要较长的计算时间。更加糟糕的是,在产品列和销售地区列中出现的“汇总”数据项完全破坏了列的定义。用户在查询过程中必须了解这种例外情况的出现。 多维数据库MDDB在OLAP系统中的优势表现在查询速度和结构清晰明了上。在MDDB中,数据可以按照行或列进行累加。在MDDB中没有重复出现的信息,因此其统计速度要远远高于关系型数据库。如果将汇总等数据也存储在数据库中,只要在原数据库中增加一行、一列就可以了,如表4-6所示(P88页),实现较为简单。 4.2.2 多维数据库的数据存储 在多维数据库中,二维数据很容易理解,但是当维数扩展到三维或更高的维度时,多维数据库MDDB就成了一种“超立方”的结构,对其理解就产生了困难。但是,在MDDB中,其数据的存储是由许多类似于数组的对象来完成的。在这些对象中包含了经过高度压缩的索引和指针,利用这些索引和指针将许多存储数据的单元块联接在一起。每个单元块都按照多维数组的方式存储,相互之间通过直接偏移计算进行存取。在索引中只用了一个较小的数来标识单元块,因此多维数据库的索引比较小,只占用数据空间的一小部分,可以全部存放在内存中。但是在多维的实际分析中,可能需要将任一维与其它维进行组合,因此需要能够“旋转”数据立方体已经切片的视图,即用多维方式显示数据。 在MDDB中,并非维之间的任何组合都会产生实际的值,在实际组合中往往由于各种原因会导致某些组合没有具体的值,或值是空的或者值为零。例如,在表4-6中,如果该公司在北京地区没有进行电器的销售活动,那么在电器行和北京列所交叉的单元格的值就是0,而不是340。这就产生了多维数据库的稀疏矩阵问题,稀疏矩阵使数据库中产生大量的无数据空间,导致存储空间的浪费。为此,多维数据库常常需要采用压缩技术来解决空间浪费问题。 4.2.3 多维数据库与数据仓库 多维数据库为终端用户提供了一种可以对数据进行灵活访问的信息结构,利用多维数据库可以对数据进行切片、切块,动态地观察汇总数据与细节数据的关系。而数据仓库中的细节数据则为多维数据库提供了非常健全和便捷的数据源,由于OLAP的应用,需要多维数据库定期刷新。因此,数据要定期地从数据仓库中导入到多维数据库中。业务处理系统中的数据在导入到数据仓库中时,就被集成了。因此,多维数据库就不必再从业务处理系统中抽取与集成数据。而且基于多维OLAP的用户,如果对细节数据的分析感兴趣,还可以通过数据仓库所保留的细节数据进行分析。 在实际的应用中,数据仓库与多维数据库是有差别的。首先,从所存储的数据量看,数据仓库存储了大量的数据,而多维数据库只存储了某些类型用户所需要的集成数据,在数据量上要远低于数据仓库;其次,数据仓库只允许少量的分析人员进行少量的灵活访问,而多维数据库却允许众多的用户进行大量的非预知的数据访问和分析;最后,从数据存储的时间范围看,数据仓库所存储的数据可能长达5~10年,而多维数据库中的数据则只保存大约1年左右的时间。 4.3 OLAP的类型 OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(Relational OLAP)、多维OLAP(Multidimensiona

文档评论(0)

gtez + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档