第二章数据仓库及其设计.pptVIP

下载本文档

17
0
约8.99千字
约 104页
2022-09-06 发布于重庆
举报
版权申诉

第二章数据仓库及其设计.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Dates的概念分层第六十三页，共一百零四页。（2）顾客维 Customers表结构第六十四页，共一百零四页。 Customers维表的数据： Cust_key 姓名年龄年龄层次 1 王华 36 中年 2 陈明 45 中年 3 张兵 22 青年 4 李丽 33 青年 5 刘庆 65 老年 6 曾强 35 青年第六十五页，共一百零四页。 Customers的概念分层第六十六页，共一百零四页。（3）地点维 Locates表结构第六十七页，共一百零四页。 Locates维表的数据： Locate_key 地址地区省份市县 1 北京市海淀区A小区华北北京北京海淀区 2 湖北省武汉市洪山区A 华中湖北武汉市洪山区 3 江苏省扬州市宝应县T 华东江苏扬州市宝应县 4 广东省广州市越秀区T 华南广东广州市越秀区第六十八页，共一百零四页。 Locates的概念分层第六十九页，共一百零四页。（4）商品维 Products表结构第七十页，共一百零四页。 Products维表的数据： Prod_key 子类品牌型号单价分类 1 电视机长虹长虹ZH 1500 家用电器 2 电视机海信海信HX 2500 家用电器 3 电冰箱海尔海尔HU 2800 家用电器 4 电冰箱美菱美菱ML 2500 家用电器 5 手机华为华为HW 1880 通信设备 6 电话 TCL TCL89 150 通信设备第七十一页，共一百零四页。 Products维表概念分层第七十二页，共一百零四页。 2. 事实表设计 Sales表结构第七十三页，共一百零四页。（3）概念分层　　维表中维一般包含着层次关系，也称为概念分层，如在时间维上，按照“年份－季度－月份”形成了一个层次，其中年份、季度、月份成为这个层次的三个级别。第三十一页，共一百零四页。概念分层的作用如下：概念分层为不同级别上的数据汇总提供了一个良好的基础。综合概念分层和多维数据模型的潜力，可以对数据获得更深入的洞察力。通过在多维数据模型中，在不同的维上定义概念分层，使得用户在不同的维上从不同的层次对数据进行观察成为可能。多维数据模型使得从不同的角度对数据进行观察成为可能，而概念分层则提供了从不同层次对数据进行观察的能力；结合这两者的特征，我们可以在多维数据模型上定义各种OLAP操作，为用户从不同角度不同层次观察数据提供了灵活性。第三十二页，共一百零四页。（4）事实表设计　　事实表是多维模型的核心，是用来记录业务事实并作相应指标统计的表，同维表相比，事实现具有如下特征：记录数量很多，因此事实表应当尽量减小一条记录的长度，避免事实表过大而难于管理。事实表中除度量外，其他字段都是维表或中间表（对于雪花模式）的关键字（外键）。如果事实相关的维很多，则事实表的字段个数也会比较多。第三十三页，共一百零四页。　　在查询事实表时，通常使用到聚集函数，一个聚集函数从多个事实表记录中计算出一个结果。度量可以根据其所用的聚集函数分为三类：分布的聚集函数：将这类函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。例如COUNT（求记录个数）、SUM（求和）、MIN（求最小值）、MAX（求最大值）等。代数的聚集函数：函数可以由一个带m个参数的代数函数计算（m为有界整数），而每个参数值都可以由一个分布的聚集函数求得。例如AVG（求平均值）等。整体的聚集函数：描述函数的子聚集所需的存储没有一个常数界，即不存在一个具有m个参数的代数函数进行这一计算。例如MODE（求最常出现的项）。第三十四页，共一百零四页。 2. 雪花模式（1）雪花模式的基本结构　　雪花模式（Snowflake schema）是对星形模式的扩展，每一个维表都可以向外连接多个详细类别表。　　在这种模式中，维表除了具有星形模式中维表的功能外，还连接对事实表进行详细描述的详细类别表，详细类别表通过对事实表在有关维上的详细描述达到了缩小事实表和提高查询效率的目的，第三十五页，共一百零四页。雪花模式的基本结构如下：第三十六页，共一百零四页。　　星形模式虽然是一个关系模型，但是它不是一个规范化的模型，在星形模式中，维表被故意地非规范化了，雪花模式对星形模式的维表进一步标准化，对星形模式中的维表进行了规范化处理。雪花模式的特点如下：某个维表不与事实表直接关联，而是与另一个维表关联。可以进一步细化查看数据的粒度。维表和与其相关联的其他维表也是靠外码关联的。也以事实数据表为核心。第三十七页，共一百零四页。　　【例2.2】在图2.5的星形模式中，每维只用一个维表表示，而每个维表包含一组属性。例如，销售地点维表包含属性集{L