第四章节数据仓库中的粒度.pptVIP

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 数据仓库中的粒度 SZ1516029_李航 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 摘要: 4.1 粗略估算 4.2 规划过程的输入 4.3 溢出存储器中的数据 4.4 确定粒度级别 4.5 一些反馈循环技巧 4.6 确定力度级别的几个例子 4.7 填充数据集市 4.8 小结 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 4.1 粗略估算 粒度:粒度是数据仓库中数据单元的细节程度或综合程度的级别。 粒度与细节程度的关系:粒度级别越高,细节程度越低,反之,粒度级别越低,细节程度越高。 粒度细节级别分为:早期细节级,当前细节级,轻度细节级和高度细节级。 确定数据仓库中数据的恰当粒度是数据仓库开发者需要面对的一个重要设计问题。如果数据仓库的粒度确定的合理,设计和实现中的其余方面就可以进行的非常舒畅;相反,如果粒度确定的不合理,就会使得所有方面都难以进行。 粒度的主要问题是使其处于合适的级别,粒度级别既不能太高也不能太低。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 粗略的数据估计 确定适当的粒度级别所要做的第一件事就是对数据仓库中将来的数据进行数据行数和所要的DASD(直接存取存储设备)数进行粗略估算。这仅仅是数量级的估计。 图4-1给出了一个计算数据仓库占用空间的方法路径。第一步是确定数据仓库中将要创建的所有表。然后估计每张表的大小,估计一个上届一个下届足矣。 接下来,估计一年内表中可能的最少行数和最多行数。 估计一年内数据仓库中数据单元的数量后,重复用同样方法对五年内的数据进行估计。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 图4-1 空间行计算 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 计算索引数据空间 粗略数据估计完成之后,还要计算一下索引数据占据的空间。确定每张表的关键字或数据元素的长度,并弄清楚是否原始表中的每条记录都存在关键字。 索引数据所占空间=索引数目 * 关键字长度 最终数据总量=索引数据占据的空间+粗略数据估算的空间 需要注意的是,对数据仓库大小的估计预测几乎总是偏低,而且,数据仓库的增长速率一本比预测的还要快。 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 4.2 规划过程的输入 估计出的行数和DASD数就成了规划过程的输入。进行估计时,结果只要达到数量级就行了,更精确的准确度只不过是浪费时间。如图4-2 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 4.3溢出存储器中的数据 对数据仓库大小估计的粗略估计完成后,需要根据数据仓库环境中将具有的总行数的多少,对比图4-3,采取不同的设计,开发以及存储方法。 对于五年期,总行数将大致变了一个数量级或更多。经推测,五年后可能出现如下因素: 1.在管理数据仓库中大量数据时,将有更多的专门的技术 2.硬件费用将会有所下降 3.将可以使用功能跟加强大的软件工具 4.最终用户将更加专业化 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 图4-3 将数据仓

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档