第4章数据仓库中的维度与粒度.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第1页,共25页,星期日,2025年,2月5日4.3溢出存储器应该考虑五年后如下因素:有更多的技术管理大量数据硬件费用下降功能更强大的软件工具最终用户更加专业化第2页,共25页,星期日,2025年,2月5日4.3溢出存储器历史数据与细节数据造成了数据的显著增长根据数据使用频率,可将数据分为二类:经常使用的数据不经常使用的数据(睡眠数据)解决方案:睡眠数据转移至海量备用存储器或近线存储器常用的溢出存储器可分为:低性能的磁盘存储器近线存储器串行磁带……第3页,共25页,星期日,2025年,2月5日4.4确定粒度级别一方面,合理推测粒度级别确定粒度还需要通过一定量的反复分析,根据用户反馈不断改进另一方面,预测不同体系结构的需求数据仓库中的数据需要处于最低的公共细节水平第4页,共25页,星期日,2025年,2月5日4.5反馈技巧提高数据粒度的方法:数据进入数据仓库时,进行汇总数据进入数据仓库时,求平均值数据集的最大/最小值放入数据仓库只放入显然需要的数据用条件逻辑选择需要的数据系统需求了解到50%左右时即可以开始建造数据仓库当正常的业务事务记录准备放入数据仓库时,高粒度级别的数据可能需要分解到低粒度级别。而对于一些低粒度级的数据,如生产过程控制、网络环境中产生的点击流数据等,必须对数据进行编辑、重新排序和汇总等处理。第5页,共25页,星期日,2025年,2月5日第6页,共25页,星期日,2025年,2月5日第7页,共25页,星期日,2025年,2月5日第8页,共25页,星期日,2025年,2月5日第9页,共25页,星期日,2025年,2月5日4.6填充数据集市数据粒度需要考虑的另一重要因素:用于填充数据集市数据仓库中的数据粒度必须是任何数据集市所需要数据中的最小粒度。第10页,共25页,星期日,2025年,2月5日维度设计第11页,共25页,星期日,2025年,2月5日维度表维度表是事实表不可分割的伴侣维度表倾向于将行数做得相当少(通常100万行),而将列数做得特别大数据仓库的能力与维度的质量和深度成正比一个用户要按星期与商标来查看销售额,星期与商标就必须是可的维度属性第12页,共25页,星期日,2025年,2月5日维度内容维度属性是查询的约束条件、分组与报表标签生成的基本来源每个维度用单一的主关键字进行定义,主关键字是确保与之相连的事实表存在完整性的基础。非直接相关属性产品:包裹大小与品牌非规范化很多维度变化很缓慢多级层次结构维度表通常有多种多级层次结构第13页,共25页,星期日,2025年,2月5日维度中的文本与数字维度应当是文本和离散的尽量使用详细的文本信息取代编码数字属性放入维度表还是事实表应当看它是一个含有许多取值并参与运算的度量(应放入事实表),还是变化不多并参与约束条件的离散取值(应放入维度表)产品尺寸------维度表产品生产成本------事实表第14页,共25页,星期日,2025年,2月5日事实表的内容事实表的主键是所有维度表主键的组合键主要是数字属性表很长,但不宽稀疏的数据假期记录可能为空退化的维度既不是事实也不是维属性的数据元素如发票号、订单号等第15页,共25页,星期日,2025年,2月5日粒度设计原子数据应成为每个事实表设计的基础好处:可以只通过添加维度,满足新的查询要求商场的最佳维度应是POS事务的单列项促销效果、限时打折都需要低粒度数据第16页,共25页,星期日,2025年,2月5日事实表设计毛利润=销售-成本;在已有销售和成本字段的情况下,是否应物理存储毛利润字段?应存储减少用户出错便于生成报表第17页,共25页,星期日,2025年,2月5日例:业务数据的E-R图销售销售日期商店号商品号销售数量销售单位商品商品号商品名商品类号存货星期商店号商品号数量1m1m商店商店号商店名地址城市省邮编地区号1mm11商品类商品类号商品类名部门号m1m地区地区号地区名第18页,共25页,星期日,2025年,2月5日

文档评论(0)

xiaozhuo2022 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档