- 1、本文档共129页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、事实表的索引有两种: (1)主码索引---B+树索引(高基数列) 主码有多个外码?多列组合索引。 主码索引的结果受组合索引各列排列顺序的影响—索引效率有非常大的差异。 时间码:应放在组合索引的第一位。优点:DW所有查询离不开DW的时间特性,?提高查询效率;提高增量维护的效率,因为新加入的是以时间为先后顺序的。 (2)非主码索引---单值(列)索引?采用B+树或位图索引 度量值建索引—应用少 DW重要特点?支持数据的多维查询?从维的角度对事实表建立索引更有意义。 第一章 数据仓库的基本概念 第一章 数据仓库的基本概念 主题数据: 主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中,直接面向分析型用户的访问。 主题数据的存储称为实视图,它与数据库的视图概念不同之处在于:它不是虚拟的,而是已经过计算,含有大量数据,并存储在数据仓库中的实实在在的表。 第一章 数据仓库的基本概念 实视图的好处: 通过建立实视图可以提高系统的响应速度; 由于数据源到主题数据映射关系的复杂性,采用普通视图的方式不可行。 实视图的特点: 时间是数据仓库中几乎所有数据的属性之一; 数据在装于数据仓库后,基本不发生变化; 实视图不是数据源中数据的简单拷贝,而是经历了数据预处理过程; 主题数据分为最小粒度数据和聚集数据。 第一章 数据仓库的基本概念 预处理数据: 从数据源向主题数据的变换,就如同穿越冰山的过程,工作量大而繁杂,预处理数据正是这一过程的中间结果。对于数据仓库的建设而言,预处理数据是一非常重要数据存储环节。 预处理数据的作用: 保存大量的细节型业务处理数据 保存净化后的数据 存储代理码的分配 创建并存储统一的事实和统一的维 作为数据仓库的数据备份之一 第一章 数据仓库的基本概念 查询服务数据: 在数据仓库的主题数据中直接得到所需的信息仍然存在一定的难度,因此,在很多情况下,需要查询服务数据作为主题数据和最终查询结果之间的过渡数据。 查询服务分为: 查询服务数据同前台分析工具紧密联系,临时地存储在分析工具中,以便进一步分析查询; 将查询服务数据转存起来,留待以后在进行分析或同其他系统结合起来使用; 将查询服务数据存储到数据仓库的主题数据中,典型例子是数据挖掘工具同数据仓库结合应用。 第一章 数据仓库的基本概念 1-5-3 相关的数据服务 后台数据预处理: 数据抽取(Data Extraction) 数据转换 (Data Transformation) 数据装载 (Data Loading ) 前台数据查询服务: 多种展现形式的数据查询 灵活的分析报表生成 访问安全保障 第一章 数据仓库的基本概念 1-5-4 相关的数据管理——元数据 元数据的含义: 后台元数据与过程相关,它指导着抽取、净化和装载的过程; 前台元数据更具有描述性质,它帮助查询工具和报表生成器更顺利地工作。 它是所有数据元素表述的一种业务内容字典。 第一章 数据仓库的基本概念 元数据的内容: 数据源元数据 预处理数据元数据 主题数据元数据 前台查询服务元数据 元数据的工作流程: 元数据的工作流程分为13个步骤。 第一章 数据仓库的基本概念 1. 数据源元数据 数据仓库的数据源有多个,各有各的特点?为实现数据的抽取。 数据源元数据包含的内容: (1)数据源存储平台; (2)数据源的数据格式(表格文件 数据库表 扫描图形等); (3)数据源的业务内容说明; (4)数据源的更新频率; (5)数据源的所有者; (6)数据源的访问方法及使用限制; (7)实施数据抽取的工具或其他方法,及相应的参数设置; (8)数据抽取的进度安排; (9)实际数据抽取的时间、内容及完成情况的记录。 第一章 数据仓库的基本概念 2. 预处理数据元数据 后台数据预处理工作量大,内容复杂。 预处理数据相关的元数据包含的内容: (1)数据抽取、转换、装载过程中用到的各种文件定义; (2)从数据源到各级中间视图以及主题数据实视图之间的数据对应 关系; (3)有关数据净化的详细说明; (4)为了满足数据挖掘需要进行的数据处理的详细说明; (5)DW的总线-----统一的事实和统一的维的定义; (6)维表各属性的更新策略选择; (7)代理码的分配情况; (8)数据聚集的定义; (9)数据聚集的使用统计及更新维护记录; (10)完成数据转换的工具或其他方法,及相应参数设置;
文档评论(0)