第3节数据仓库设计.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3节数据仓库设计

第3章 数据仓库设计 3.l数据仓库中数据模型概述 3.1.1数据模型的概念 图3-2 数据模型关系 3.1.2数据仓库模型构建的原则 1.满足不同用户的需求 2.兼顾效率与数据粒度的需要 3.支持需求的变化 4.避免对业务运营系统造成影响 5.考虑未来的可扩展性 3.1.3企业数据模型 图3-3分层数据模型 3.2概念模型设计 3.2.l企业模型的建立 1.E-R模型的概念模型设计过程 图3-4 E-R模型的概念模型设计过程 2.E-R模型设计中的一些说明 (1)模糊性:无法表述数据仓库中各数据间的关系,比如:分析数据,描述数据和细节数据间的关系; (2)静态性:时间参数的存在及作用无法体现; (3)局限性:无法揭示数据仓库中数据的导出关系。 为了规避这些不足,在E-R图法中,实体被分为事实实体(Fact Entity),维度实体(Dimension Entity),引用实体(Quotation Entity),用图3-5中的图形分别表示: 3.2.2数据模型的规范 表3-1 数据仓库数据与普通数据库系统数据的对比 3.2.3常见的概念模型 1.星形模型 2.雪花模型 3. 事实星座模型 这种模型用于更为复杂的情况。它的中心不只一个中心,而是由多个中心组成,即存在多个事实表,而每个事实表拥有自己的一组维度表,这些维度表又有可能共享一个事实表,形成一个交叉,复杂的关系网络。但是这种模型在实践中运用较少。 3.3逻辑模型设计 3.3.l概念模型到逻辑数据模型的转换 下面我们以这个例子为基础来介绍一下概念模型是如何向星形模型转化的。首先,我们了解一下星形模型的设计步骤: 1.确定决策需求分析 2.从需求中识别出事实 3.确定维 4.确定数据汇总的水平 5.设计事实表和维度表 6.检验设计方案的有效性(DBMS和分析用户工具) 7.设计方案随需求变化而改动 3.3.2数据表的规范化与分割 前面我们已经介绍过了什么是依赖,下面把数据表规范化过程简单归纳如下: 除去函数依赖的数据表中的无关的列; 移动可以由某些函数依赖推导出的函数依赖; 按相同的决定因素重排函数依赖; 对每个函数依赖组,用决定因素作为主关键字造表; 合并包含其他表的所有列:选择其中一个独立表的主关键字作为合并后表的主关键字;给不作为新表的主关键字的其他主关键字定义唯 3.3.3维度表的设计 维度表的设计是对事实表的进一步细化。它也要根据逻辑模型来设计。每个事实表都需要大量的数据来对其属性和细节进行详细说明,而维度表就是将这些详细说明的数据按其逻辑关系存放的工具。一个维度表拥有很多属性,这些属性可以是文字,离散值和有规定的限制,在分析过程中可以作为信息的行标题。 需要注意的是,在设计事实表和维度表之间的关系时,尽量让维度表中的数据直接参考事实表中的数据,而不是通过其他维度表间接参考事实表。这样,可以最小化表之间的连接数量,减少系统CPU和I/O通道及存储设备的负担。 3.3.4事实表的设计 事实表是星形模型的核心。它一般包含两部分:键和详细指标。其中,键又分为主键和外键,它们将各维表组织起来,共同满足用户的查询需求,而详细指标则是记录在事实表中的具体数据,供查询使用。 3.3.5数据集市设计 从属型数据集市结构如图3-19所示 3.3物理模型设计 定 义 数 据 存 储 结 构 索引策略 数据存储策略 物理模型设计过程中,要注意考虑数据存储。因为,数据仓库不要求把同一主题的数据放在同一介质上,所以我们可以根据数据的重要程度,使用频率和响应时间来存放数据,一般而言,将那些重要程度高,使用频率高和响应时间要求高的数据存放在高速存储设备上,比如:硬盘,而其它的数据则可以放在低速存储设备上,比如磁盘等。 存储分配优化 1.设定正确的块大小 2.设置适当的块使用参数 3.数据迁移管理 4.块使用管理 5.解决动态扩展 6.采用文件分带技术 数据加载设计 数据仓库要求的一个重要技术就是能高效地载入数据。有两种方式:通过一个语言接口一次载入一条记录或使用一种工具全体批量地装入。注意,在装载数据时,索引也必须随之装入。若数据装载的容量负荷太大的情况下,可以采用并行装载。它将数据分为几个工作流,这样所需时间就大大降低。此外,还有一种高效装载方法是在装载前先对数据进行缓冲处理。这种方法一般在数据量大且复杂程度高的情况下使用。 物理模型的设计对数据仓库性能的影响 在物理模型的设计阶段,同时也要考虑数据仓库性能。为了兼顾数据仓库性能,我们在这个阶段应从以下几个方面入手: 合理控制数据规范化程度,主要方法有:表的归并,允许数据冗余; 存储策略,主要有:服务器的数据分散存储,磁盘级的存储优化; RAID技术

文档评论(0)

karin + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档