第二章 数据仓库的分析.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章数据仓库的分析第二章数据仓库的分析

数据仓库与数据挖掘 数据仓库与数据挖掘 第一章 数据仓库与数据挖掘概述 第二章 数据仓库的分析 第三章 数据仓库的设计与实施 第四章 信息分析的基本技术 第五章 数据挖掘过程 第六章 数据挖掘基本算法 第七章 非结构化数据挖掘 第八章 离群数据挖掘 第九章 数据挖掘语言与工具的选择 第十章 知识管理与知识管理系统 第二章 数据仓库的分析 2.1 数据仓库的需求分析模型 2.2 影响数据仓库成功的因素 2.3 数据仓库的生命周期 2.4 数据仓库的基本体系结构 2.5 数据仓库的逻辑结构 2.1 数据仓库的需求分析模型 2.1 数据仓库的需求分析模型 2.1 数据仓库的需求分析模型 第二章 数据仓库的分析 2.1 数据仓库的需求分析模型 2.2 影响数据仓库成功的因素 2.3 数据仓库的生命周期 2.4 数据仓库的基本体系结构 2.5 数据仓库的逻辑结构 2.2 影响数据仓库成功的因素 2.2 影响数据仓库成功的因素 第二章 数据仓库的分析 2.1 数据仓库的需求分析模型 2.2 影响数据仓库成功的因素 2.3 数据仓库的生命周期 2.4 数据仓库的基本体系结构 2.5 数据仓库的逻辑结构 2.3 数据仓库的生命周期 2.3 数据仓库的生命周期 不同与数据库开发的生命周期。 1、数据仓库开发是从数据出发的 从已有数据出发的数据仓库设计方法称为“数据驱动”的设计方法。 数据仓库的设计是从已有的数据库系统出发,按照分析领域对数据及数据之间的联系重新考察,组织数据仓库的主题。 “数据驱动”设计方法的中心思想是利用数据模型有效地识别原有的数据库中的数据和数据仓库中主题的数据“共同性”。 2、数据仓库使用的需求不能在开发初期明确确定 3、数据仓库的开发是一个不断循环的过程,是启发式的开发 2.3 数据仓库的生命周期 因此,开发过程是先实现数据仓库的一部分,然后经集成数据、检验偏差、针对数据编程、设计DSS系统、分析结果、理解需求而成。 第二章 数据仓库的分析 2.1 数据仓库的需求分析模型 2.2 影响数据仓库成功的因素 2.3 数据仓库的生命周期 2.4 数据仓库的基本体系结构 2.5 数据仓库的逻辑结构 2.4 数据仓库的基本体系结构 2.4 数据仓库的基本体系结构 2.4 数据仓库的基本体系结构 第二章 数据仓库的分析 2.1 数据仓库的需求分析模型 2.2 影响数据仓库成功的因素 2.3 数据仓库的生命周期 2.4 数据仓库的基本体系结构 2.5 数据仓库的逻辑结构 2.5 数据仓库的逻辑结构 2.5.1 数据仓库中的粒度 2.5.2 数据仓库中的数据分割 2.5.3 数据仓库中的数据组织 2.5.4 数据仓库中的快照 2.5.5 数据仓库中的元数据 2.5.1 数据仓库中的粒度 所谓粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度就越小,级别也就越低;细化程度越低,粒度就越大,级别也就越高。 根据粒度的划分标准可将数据划分为当前细节级、轻度综合级、高度综合级三级或更多粒度。不同粒度级别的数据用于不同类型的分析处理。 2.5.1 数据仓库中的粒度 双重粒度级:指轻度综合数据级和真实细节数据级(最低粒度级)。 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。 (1) 数据粒度的划分 (2) 确定粒度的级别 (1) 数据粒度的划分 适当划分粒度的起点,是估算数据仓库中将来使用的数据行数和所需的直接存取存储设备(DASD)。 计算数据仓库所占的空间的算法: 第一步,估计数据仓库中需要建立的表数目,估算每个表的大致行数,通常需要估计行数的上、下限。索引的大小只与表的总行数有关,而不与表数据量有关。所以,粒度的划分是由总的行数而不是总的数据量决定的。 接下来,可对每个表估算其一年所需的存储空间。这是设计者所要解决的最大问题。 (1) 数据粒度的划分 计算每个表的存储空间,应该是每一个表的数据存储空间和索引存储空间之和。 精确计算表的每年实际存储空间往往是很难的,只能给出表的最大估算空间和最小估算空间。为此,需要估算每个表每年需要最多的行数和最少的行数,然后,估算出每行占用空间的最大字节数和最小字节数。 接着,计算索引数据所占的空间。每个表的索引存储空间,只要估算出键码的占用字节数与索引的行数,便可计算出来。 这样,每个表每年的存储空间就可以用表的存储空间与相应的索引空间之和表示。 然后估算其最长的保留年数所需要的存储空间。 (1) 数据粒度的划分 在计算出数据仓库所需要占用的存储空间之后,需要根据所需要的存储空间大小确定是否划分粒度?如果需要划分,又应该怎样划分? 数据仓库表中数据的总行数和相应的数据粒度划分方法可以参考下表。 (1) 数据粒度的划分 (2) 确定粒度的级别 在数据仓库中,需要考

文档评论(0)

cxiongxchunj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档