第3章数据仓库设计与开发.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
逻辑模型设计——雪花模型 雪花模型是对星形模型的扩展,每一个维度都可以向外连接多个详细类别表。 在这种模式中,维度表除了具有星形模型中维度表的功能外,还连接对事实表进行详细描述的详细类别表,详细类别表通过对事实表在有关维上的详细描述达到了缩小事实表和提高查询效率的目的。 第三十页,共六十五页。 逻辑模型设计——雪花模型 雪花模型架构示意图 第三十一页,共六十五页。 逻辑模型设计——雪花模型 雪花模型对星形模型的维度表进一步标准化,对星形模型中的维度表进行了规范化处理。 雪花模型的维度表中存储了正规化的数据,这种结构通过把多个较小的标准化表(而不是星形模型中的大的非标准化表)联合在一起来改善查询性能。 由于采取了标准化及维的低粒度,雪花模型提高了数据仓库应用的灵活性。 第三十二页,共六十五页。 逻辑模型设计——雪花模型 在该模型中,将地理层次国家、区域和分区域嵌入到销售员维度,这样,公司的管理者想按照国家、区域、分区域和分区域内的销售员的层次关系来查看公司的销售情况。 第三十三页,共六十五页。 销售数据仓库逻辑模型(雪花型) 第三十四页,共六十五页。 逻辑模型设计——星座模型 一个复杂的商业智能应用往往会在数据仓库中存放多个事实表,这时就会出现多个事实表共享某一个或多个维表的情况,这就是事实星座,也称为星系模型(galaxy schema)。 数据仓库由于是企业范围的,能对多个相关的主题建模,所以在设计其数据构成时一般采用星系模式。而数据集市是部门级的,具有选定的主题,可以采用星形或雪花模型。 第三十五页,共六十五页。 逻辑模型设计——维度的设计 维是人们观察客观世界的角度,是一种高层次的类型划分。如:对客户、产品、服务、提供商、地点、渠道和事件发生的时间 维表是由维主键和维属性组成的 一般情况下,在每次抽样时,如果数值数据字段的度量都改变,那么它就是事实,如果它是某种东西的离散值描述,并几乎保持为常数,那么它就是维属性。例如,商品的价格是为表的属性,销售量是事实。 第三十六页,共六十五页。 维表举例 图3.10 时间维度及其层次关系 图3.11 财务时间维度 第三十七页,共六十五页。 维表举例 图3.12 地理维度层次 图3.13 机构维度层次 第三十八页,共六十五页。 维表举例 客户维度分类 第三十九页,共六十五页。 物理模型设计 数据仓库的物理数据模型就是逻辑数据模型在数据仓库中的实现,如: 物理存取方式 数据存储结构 数据存放位置以及存储分配等 物理数据模型设计实现时,所考虑的主要因素有: I/O存取时间 空间利用率和维护代价 在进行数据仓库的物理数据模型设计时,考虑到数据仓库的数据量大但是操作单一的特点,可采取其他的一些提高数据仓库性能的技术,如: 合并表、建立数据序列、引入冗余、进一步细分数据、生成导出数据、建立广义索引等。 第四十页,共六十五页。 物理模型设计——设计存储结构 在物理设计时,常常要按数据的重要性、使用频率及对反应时间的要求进行分类,并将不同类型的数据分别存储在不同的存储设备中。 重要性高、经常存取并对反应时间要求高的数据存放在高速存储设备上; 存取频率低或对存取响应时间要求低的数据则可以存放在低速存储设备上。 在设计时还要考虑数据在特定存储介质上的布局。 第四十一页,共六十五页。 物理模型设计——设计存储结构 设计数据的布局时要注意遵循以下原则。 (1) 不要把经常需要连接的几张表放在同一存储设备上,这样可以利用存储设备的并行操作功能加快数据查询的速度。 (2) 如果几台服务器之间的连接会造成严重的网络业务量的问题,则要考虑服务器复制表格,因为不同服务器之间的数据连接会给网络带来沉重的数据传输负担。 (3) 考虑把整个企业共享的细节数据放在主机或其他集中式服务器上,提高这些共享数据的使用速度。 (4) 不要把表格和它们的索引放在同一设备上。一般可以将索引存放在高速存储设备上,而表格则存放在一般存储设备上,以加快数据的查询速度。 第四十二页,共六十五页。 物理模型设计——设计索引策略 数据仓库的数据量很大,因而需要对数据的存取路径进行仔细地设计和选择。由于数据仓库的数据一般很少更新,所以可以设计索引结构来提高数据存取效率。 数据仓库中的表通常要比联机事务处理系统(OLTP)中的表建立更多的索引,表中应用的最大索引数应与表格的规模成正比。 数据仓库是个只读的环境,建立索引可以取得灵活性,对性能极为有利。但是,表若有很多索引,那么数据加载时间就会延长,因此索引的建立需要进行综合的考虑。 一般都是按主关键字和大多数外部关键字建立索引,通常不要添加很多的其他索引。 第四十三页,共六十五页。 物

文档评论(0)

虾虾教育 + 关注
官方认证
文档贡献者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档