- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章 数据仓库设计 ;2.1.1 数据仓库设计原则;2.1.2 数据仓库构建模式;2. 先局部再整体的构建模式:Ralph Kimball 模式;2.1.3 数据仓库设计步骤;2.2 数据仓库规划和需求分析;2.2.2 数据仓库的需求分析;2.3 数据仓库的建模;1. 粒度(Granularity);2. 维度(Dimension);3. 维属性和维成员;4. 维层次; 例如对于地点维,有“杭州→浙江→中国”的维层次。又例如时间维,可以从年、季度、月份、日期来描述,那么“年份→季度→月份→日期”就是维层次。;5. 度量(Measure)或事实(Fact);2.3.2 多维数据模型的实现;1. 关???数据库; 例如,下表是一个关系表的数据组织形式,其中包含按产品和地区两项分类统计的销售量。;2. 多维数据库;例如,上一个表采用多维数据库的数据组织形式如下表所示。; 在关系数据库中,“多对多”的关系总是转化成多个“一对多”的关系,有利于数据的一致性和规范化,这符合事务处理系统的需求。
多维数据库的优势不仅在于多维概念表达清晰,占用存储少,更重要的是它有着高速的综合速度。
在多维数据库中,数据可以直接按行或列累加,并且由于多维数据库中不像关系表那样出现大量的冗余信息,因此其统计速度远远超过关系数据库,数据库记录数越多,其效果越明显。;2.3.3 数据仓库建模的主要工作;2. 确定事实表的粒度;3. 确定数据分割策略;4. 构建数据仓库中各主题的多维数据模型及其联系;2.3.4 几种常见的基于关系数据库的多维数据模型;星形模式的基本结构如下:;星形模式的特点如下: ; 【例2.1】一个“销售”数据仓库的星形模式如图2.5所示。该模式包含一个中心事实表“销售事实表”和4个维表:时间维表、销售商品维表、销售地点维表和顾客维表。在销售事实表中存储着四个维表的主键和两个度量“销售量”和“销售金额”。 ;(2)维表设计;维表中维的类型:;(3)概念分层;概念分层的作用如下:;(4)事实表设计; 在查询事实表时,通常使用到聚集函数,一个聚集函数从多个事实表记录中计算出一个结果。度量可以根据其所用的聚集函数分为三类:;2. 雪花模式;; 星形模式虽然是一个关系模型,但是它不是一个规范化的模型,在星形模式中,维表被故意地非规范化了,雪花模式对星形模式的维表进一步标准化,对星形模式中的维表进行了规范化处理。 ; 【例2.2】在图2.5的星形模式中,每维只用一个维表表示,而每个维表包含一组属性。例如,销售地点维表包含属性集{Location_id,街道,城市,省,国家}。 ;;;;(2)雪花模式和星形模式的比较;3. 事实星座模式; 【例2.3】在图2.5的星形模式的基础上,增加一个供货分析主题,包括供货时间(Time_id)、供货商品(Item_id)、供货地点(Locate_id)、供应商(Supplier_id)、供货量和供货金额等属性。
设计相应的供货事实表,对应的维表有时间维表、商品维表、地点维表和供应商维表,其中前三个维表和销售事实表共享,对应的事实星座模式如图2.8所示。;;(2)三种模式的关系;2.4 数据仓库的物理模型设计;2.4.1 确定数据的存储结构; 同一个主题的数据并不要求存放在相同的介质上。
在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。
重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。;常用的策略:;2.4.2 确定索引策略;2.4.3 确定存储分配;2.5 数据仓库的部署和维护;2.5.2 数据仓库的维护;2.6 一个简单的数据仓库SDWS设计示例;① 分析全国各地区每年、每季度的销售金额。
② 分析各类商品在每年、每月份的销售量。
③ 分析各年龄层次的顾客的购买商品的次数。
④ 分析2013年1季度各地区各类商品的销售量。
⑤ 分析2013年各省份各年龄层次的商品购买金额。
⑥ 分析各产品子类、各地区、各年龄层次的销售量。
⑦ 其他销售情况分析等。;2.6.2 SDWS的建模;1. 维表设计;Dates维表的数据 :;;(2)顾客维;Customers维表的数据 :;;(3)地点维;Locates维表的数据 :;Locates的概念分层 ;(4)商品维;Products维表的数据 :;Products维表概念分层 ;2. 事实表设计;Sales事实表的数据 :;Date_key;SDWS的星形模式 ;3. 元数据设计;表2.9 销售主题元数据;2.6.3 基于SQL Server 2008设计SDWS
文档评论(0)