数据仓库与数据挖掘第2章分析报告.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二节 数据仓库的系统结构 1. 数据仓库的设计步骤 数据仓库设计需要考虑的四种视图: 自顶向下视图:可以帮助选择数据仓库所需的相关息,这些信息能够满足当前和未来商务的需求 数据源视图:揭示被操作数据库系统捕获、存储和管理的信息 数据仓库视图:包括事实表和维表 商务查询视图:从最终用户的角度透视数据仓库中的数据 第二节 数据仓库的系统结构 1. 数据仓库的设计步骤 数据仓库的设计包括如下步骤: 选取待建模的商务处理。如果商务过程针对整个组织,并涉及多个复杂对象,选用数据仓库模型;如果是某一部门的、或某一类商务处理,应选择数据集市。 选取商务处理的粒度 选取用于每个事实表记录的维 选取安放在事实表中的度量 第二节 数据仓库的系统结构 2. 数据仓库的结构 数据仓库通常采用三层结构: 底层:数据仓库服务器 中间层:OLAP服务器 顶层:前端工具 第二节 数据仓库的系统结构 清理 转换 集成 输出 业务数据库 外部信息源 数据仓库 数据集市 OLAP服务器 底层:数据仓库服务器 顶层:前端工具 中间层:OLAP服务器 元数据存贮 第二节 数据仓库的系统结构 2. 数据仓库的结构 从结构的角度,有三种数据仓库模型: 企业仓库 数据集市 虚拟仓库 第二节 数据仓库的系统结构 2. 数据仓库的结构 企业仓库 企业仓库(Enterprise warehouse)收集跨越整个企业的各个主题的所有信息。它提供全企业的数据集成,数据通常来自多个操作型数据库和外部信息提供者,并且是跨越多个功能范围的。它通常包含详细数据和汇总数据 企业数据仓库可以在传统的大型机上实现,例如UNIX超级服务器或并行结构平台。它需要广泛的业务建模,可能需要多年的时间来设计和建造 第二节 数据仓库的系统结构 2. 数据仓库的结构 数据集市 数据集市(data mart )包含对特定用户有用的,企业范围数据的一个子集。它的范围限于选定的主题,例如一个商场的数据集市可能限定它的主题为顾客、商品和销售。数据集市中的数据通常为汇总数据 第二节 数据仓库的系统结构 2. 数据仓库的结构 数据集市 实现数据集市的周期一般是数周,而不是数月或数年,然而,如果它的规划不是企业范围的,从长远讲,可能会涉及很复杂的集成 根据数据的来源不同,数据集市分为独立的依赖的二类。在独立的数据集市中,数据来自一个或多个操作型数据库或外部信息提供者,或者是一个特定的部门或地区本地产生的数据。在依赖的数据集市中,数据直接来自企业数据仓库 第二节 数据仓库的系统结构 2. 数据仓库的结构 虚拟仓库 虚拟仓库(virtual warehouse)是操作型数据库上视图的集合。为了有效地处理查询,只做了一些可能的汇总视图。虚拟仓库易于创建,但需要操作型数据库服务器具有剩余能力 第二节 数据仓库的系统结构 3. OLAP服务器的类型 关系OLAP(ROLAP)服务器 多维OLAP(MOLAP)服务器 混合OLAP(HOLAP)服务器 特殊的SQL服务器 第二节 数据仓库的系统结构 4. 关系OLAP(Relational OLAP) ROLAP将分析用的多维数据 存储在关系数据库中,并根据应用需求有选择的定义一批视图作为表存储在关系数据库中。不必要将每一个SQL查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图 4. 关系OLAP(Relational OLAP) 对每个针对OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube、rollup)等等 第二节 数据仓库的系统结构 第二节 数据仓库的系统结构 5. 多维OLAP(Multidimensional OLAP) MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中 第二节 数据仓库的系统结构 5. 多维OLAP(Multidimensional OLAP) 由于MOLAP采用新的存储结构,从物理层实现起,因此又称为物理OLAP(Physical OLAP) 而ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(Virtual OLAP) 第二节 数据仓库的系统结构 6. ROLAP与MOLAP比对 管理简便 维护困难 受操作系统平台文件大小限制,难达到TB级 借用RDBMS存储数据,没有文件大小限制 支持高性能

文档评论(0)

美洲行 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档