- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.1 粗略估算
计算数据仓库占用空间的方法:
第一步:确定数据仓库中将要创建的所有表
第二步:估计一年内可能的最少行数与最多行数
第三步:估计五年内可能的最少行数与最多行数
第四步:估计索引数据占用的空间
第五步:计算空间
一年总的最大空间=最大行大小*一年内最大行数
一年总的最小空间=最小行大小*一年内最小行数
另外,考虑备份和恢复所需要的空间
估算结果的准确程度只需要达到数量级
4.3 溢出存储器
应该考虑五年后如下因素:
有更多的技术管理大量数据
硬件费用下降
功能更强大的软件工具
最终用户更加专业化
4.3 溢出存储器
历史数据与细节数据造成了数据的显著增长
根据数据使用频率,可将数据分为二类:
经常使用的数据
不经常使用的数据(睡眠数据)
解决方案:
睡眠数据转移至海量备用存储器或近线存储器
常用的溢出存储器可分为:
低性能的磁盘存储器
近线存储器
串行磁带
……
4.4 确定粒度级别
一方面,合理推测粒度级别
确定粒度还需要通过一定量的反复分析,根据用户反馈不断改进
另一方面,预测不同体系结构的需求
数据仓库中的数据需要处于最低的公共细节水平
4.5 反馈技巧
提高数据粒度的方法:
数据进入数据仓库时,进行汇总
数据进入数据仓库时,求平均值
数据集的最大/最小值放入数据仓库
只放入显然需要的数据
用条件逻辑选择需要的数据
系统需求了解到50%左右时即可以开始建造数据仓库
当正常的业务事务记录准备放入数据仓库时,高粒度级别的数据可能需要分解到低粒度级别。
而对于一些低粒度级的数据,如生产过程控制、网络环境中产生的点击流数据等,必须对数据进行编辑、重新排序和汇总等处理。
4.6 填充数据集市
数据粒度需要考虑的另一重要因素:
用于填充数据集市
数据仓库中的数据粒度必须是任何数据集市所需要数据中的最小粒度。
维度设计
维度表
维度表是事实表不可分割的伴侣
维度表倾向于将行数做得相当少(通常100万行),而将列数做得特别大
数据仓库的能力与维度的质量和深度成正比
一个用户要按星期与商标来查看销售额,星期与商标就必须是可的维度属性
维度内容
维度属性是查询的约束条件、分组与报表标签生成的基本来源
每个维度用单一的主关键字进行定义,主关键字是确保与之相连的事实表存在完整性的基础。
非直接相关属性
产品:包裹大小与品牌
非规范化
很多维度变化很缓慢
多级层次结构
维度表通常有多种多级层次结构
维度中的文本与数字
维度应当是文本和离散的
尽量使用详细的文本信息取代编码
数字属性放入维度表还是事实表应当看它是一个含有许多取值并参与运算的度量(应放入事实表),还是变化不多并参与约束条件的离散取值(应放入维度表)
产品尺寸------维度表
产品生产成本------事实表
事实表的内容
事实表的主键是所有维度表主键的组合键
主要是数字属性
表很长,但不宽
稀疏的数据
假期记录可能为空
退化的维度
既不是事实也不是维属性的数据元素
如发票号、订单号等
粒度设计
原子数据应成为每个事实表设计的基础
好处:可以只通过添加维度,满足新的查询要求
商场的最佳维度应是POS事务的单列项
促销效果、限时打折都需要低粒度数据
事实表设计
毛利润=销售-成本;在已有销售和成本字段的情况下,是否应物理存储毛利润字段?
应存储
减少用户出错
便于生成报表
例:业务数据的E-R图
E-R图向多维表的转换
该问题的多维表模型中,商品维包括部门、商品和商品大类,地点维包括地区和商店,忽略存货,而只注意销售事实。在E-R图中不出现的时间,在多维模型中增加时间维。
在多维模型中,实体与维之间建立映射关系,联系多个实体的实体就成为事实,此处销售实体作为事实,其他实体作为维。然后用维关键字将它转换为星型模型,如图所示。
E-R图向多维模型的转换
利用维关键字制定的星型模型
在各维中,只有部门,商品类,地区,商店的编号没有具体的说明。
为了打印报表将增加这些编号的名称说明,即部门名、商店名等,在维表中增加这些说明,即修改该星型模型
修改后的星型模型
产品维度表
产品关键字(PK)、产品描述、商标描述、分类描述、部门描述、包装类型、包装尺寸、重量、储藏类型、货架类型、货架高度、货架深度。。。。。。
产品维度表每行都有与产品相关的商标与分类,有冗余但易于使用
日期维度:日期关键字、日期描述、星期、年历月、年历周、年历日、月编号、周编号、日编号、财政日、财政月、周末指示符、节假日指示符、销售旺季、重点事件。。。。。。
商场维度:商场关键字、名称、街道、城市、省、邮编、面积、开业时间。。。。。。
促销维度:促销关键字、名称、类型、媒体、广告、优惠卷、促销价、开始时间、结束时间。。。。。。
文档评论(0)