数据仓库与数据挖掘第二章数据仓库的数据模型与数据组织.pptVIP

数据仓库与数据挖掘第二章数据仓库的数据模型与数据组织.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘第二章数据仓库的数据模型与数据组织

* 第二章 数据仓库的数据模型与数据组织 本章要点 数据仓库的数据模型 概念模型 逻辑模型 物理模型 数据仓库数据组织的基本概念 粒度 维度 元数据 数据分割 数据仓库的数据组织 数据仓库的数据组织方式 数据仓库的数据存储组织 * 数据仓库中的数据组织 高度综合级 轻度综合级 当前综合级 早期细节级 多级数据 * 数据仓库的数据模型- 与数据库系统数据模型的区别 数据仓库的数据模型中不包含纯操作型数据。 数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。 数据仓库的数据模型中增加了一些面向主题的导出数据。 * 星型图模型 物理数据模型 概念模型 逻辑模型 物理模型 面向用户的需求 细 化层次 更详细的 技术细节 数据仓库的数据模型 信息包图 * 信息包图(概念模型) 信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。 工作: 确定系统边界:决策类型、需要的信息、原始信息 确定主题域及其内容:主题域的公共键码、联系、属性组 确定维度:如时间维、销售位置维、产品维、组别维等 确定类别:相应维的详细类别 确定指标和事实:用于进行分析的数值化信息 * 信息包图 信息包: 维度 类别 空白信息包图样式 指标和事实 * 信息包图 〖例〗试画出销售分析的信息包图。 解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实: (1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。 (2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。 (3)指标和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。 * 销售分析的信息包图 日期 销售地点 销售产品 年龄组别 性别 年(10) 国家(15) 产品类(6) 年龄组(8) 性别组(2) 季度(40) 区域(45) 产品组(48) 月(120) 城市(280) 产品(240) 区(880) 商店(2000) 指标和事实: 预测销售量、实际销售量、预测偏差 信息包: 销售分析 维度 类别 * 星型图模型(逻辑模型) 星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。 星形图包括了三种逻辑实体: 指标 维度 详细类别 * 星型图模型(逻辑模型) 〖例〗销售分析的星型图模型。 时间维 产品维 地区维 组别维 其他维 销售分析: 实际销售 预测销售 预测偏差 * 物理数据模型 物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。 在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。 * 粒度-第一种形式 粒度:对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。 粒度越小,综合程度越低,回答查询的种类越多; 粒度越高,综合程度越高,查询的效率也越高。 在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。 * 粒度-第二种形式:样本数据库 样本数据库:在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。 样本数据库的粒度:是根据采样率的高低来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。 样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。 * 维度 维度:是一个物理特性(如时间、地点、产品等

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档