- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4.1 粗略估算 计算数据仓库占用空间的方法: 第一步:确定数据仓库中将要创建的所有表 第二步:估计一年内可能的最少行数与最多行数 第三步:估计五年内可能的最少行数与最多行数 第四步:估计索引数据占用的空间 第五步:计算空间 一年总的最大空间=最大行大小*一年内最大行数 一年总的最小空间=最小行大小*一年内最小行数 另外,考虑备份和恢复所需要的空间 估算结果的准确程度只需要达到数量级 4.3 溢出存储器 应该考虑五年后如下因素: 有更多的技术管理大量数据 硬件费用下降 功能更强大的软件工具 最终用户更加专业化 4.3 溢出存储器 历史数据与细节数据造成了数据的显著增长 根据数据使用频率,可将数据分为二类: 经常使用的数据 不经常使用的数据(睡眠数据) 解决方案: 睡眠数据转移至海量备用存储器或近线存储器 常用的溢出存储器可分为: 低性能的磁盘存储器 近线存储器 串行磁带 …… 4.4 确定粒度级别 一方面,合理推测粒度级别 确定粒度还需要通过一定量的反复分析,根据用户反馈不断改进 另一方面,预测不同体系结构的需求 数据仓库中的数据需要处于最低的公共细节水平 4.5 反馈技巧 提高数据粒度的方法: 数据进入数据仓库时,进行汇总 数据进入数据仓库时,求平均值 数据集的最大/最小值放入数据仓库 只放入显然需要的数据 用条件逻辑选择需要的数据 系统需求了解到50%左右时即可以开始建造数据仓库 当正常的业务事务记录准备放入数据仓库时,高粒度级别的数据可能需要分解到低粒度级别。 而对于一些低粒度级的数据,如生产过程控制、网络环境中产生的点击流数据等,必须对数据进行编辑、重新排序和汇总等处理。 4.6 填充数据集市 数据粒度需要考虑的另一重要因素: 用于填充数据集市 数据仓库中的数据粒度必须是任何数据集市所需要数据中的最小粒度。 维度设计 维度表 维度表是事实表不可分割的伴侣 维度表倾向于将行数做得相当少(通常100万行),而将列数做得特别大 数据仓库的能力与维度的质量和深度成正比 一个用户要按星期与商标来查看销售额,星期与商标就必须是可的维度属性 维度内容 维度属性是查询的约束条件、分组与报表标签生成的基本来源 每个维度用单一的主关键字进行定义,主关键字是确保与之相连的事实表存在完整性的基础。 非直接相关属性 产品:包裹大小与品牌 非规范化 很多维度变化很缓慢 多级层次结构 维度表通常有多种多级层次结构 维度中的文本与数字 维度应当是文本和离散的 尽量使用详细的文本信息取代编码 数字属性放入维度表还是事实表应当看它是一个含有许多取值并参与运算的度量(应放入事实表),还是变化不多并参与约束条件的离散取值(应放入维度表) 产品尺寸------维度表 产品生产成本------事实表 事实表的内容 事实表的主键是所有维度表主键的组合键 主要是数字属性 表很长,但不宽 稀疏的数据 假期记录可能为空 退化的维度 既不是事实也不是维属性的数据元素 如发票号、订单号等 粒度设计 原子数据应成为每个事实表设计的基础 好处:可以只通过添加维度,满足新的查询要求 商场的最佳维度应是POS事务的单列项 促销效果、限时打折都需要低粒度数据 事实表设计 毛利润=销售-成本;在已有销售和成本字段的情况下,是否应物理存储毛利润字段? 应存储 减少用户出错 便于生成报表 例:业务数据的E-R图 销售 销售日期 商店号 商品号 销售数量 销售单位 商品 商品号 商品名 商品类号 存货 星期 商店号 商品号 数量 1 m 1 m 商店 商店号 商店名 地址 城市 省 邮编 地区号 1 m m 1 1 商品类 商品类号 商品类名 部门号 m 1 m 地区 地区号 地区名 E-R图向多维表的转换 该问题的多维表模型中,商品维包括部门、商品和商品大类,地点维包括地区和商店,忽略存货,而只注意销售事实。在E-R图中不出现的时间,在多维模型中增加时间维。 在多维模型中,实体与维之间建立映射关系,联系多个实体的实体就成为事实,此处销售实体作为事实,其他实体作为维。然后用维关键字将它转换为星型模型,如图所示。 商品维 地区维 时间维 部门 地区 年 商品大类 商店 月 商品 周 日 销售事实 E-R图向多维模型的转换 利用维关键字制定的星型模型 在各维中,只有部门,商品类,地区,商店的编号没有具体的说明。 为了打印报表将增加这些编号的名称说明,即部门名、商店名等,在维表中增加这些说明,即修改该星型模型
您可能关注的文档
最近下载
- YY0306-2018 热辐射类治疗设备安全专用要求.pdf VIP
- 电力工程项目建设用地指标(风电场)(建标〔2011〕209号).pdf VIP
- 商品混凝土采购组织供应、运输、售后服务方案.docx VIP
- 《合成生物学》课件.pptx VIP
- 《中国文化概况》带翻译版.pdf VIP
- 消除艾滋病、梅毒和乙肝母婴传播项目工作制度及流程(模板).docx
- 2.1.2 认识地球(第2课时 地球仪与经纬网)七年级地理上册课件(湘教版).pptx VIP
- 二年级上册1-8单元看图写话.pdf VIP
- YY/T 0061-2021特定电磁波治疗器.pdf
- 沥青路面旧路改造工程施工方案.docx VIP
文档评论(0)