- 578
- 0
- 约1.86千字
- 约 25页
- 2017-10-04 发布于浙江
- 举报
数据仓库中的维度与粒度
4.1 粗略估算 计算数据仓库占用空间的方法: 第一步:确定数据仓库中将要创建的所有表 第二步:估计一年内可能的最少行数与最多行数 第三步:估计五年内可能的最少行数与最多行数 第四步:估计索引数据占用的空间 第五步:计算空间 一年总的最大空间=最大行大小*一年内最大行数 一年总的最小空间=最小行大小*一年内最小行数 另外,考虑备份和恢复所需要的空间 估算结果的准确程度只需要达到数量级 4.3 溢出存储器 应该考虑五年后如下因素: 有更多的技术管理大量数据 硬件费用下降 功能更强大的软件工具 最终用户更加专业化 4.3 溢出存储器 历史数据与细节数据造成了数据的显著增长 根据数据使用频率,可将数据分为二类: 经常使用的数据 不经常使用的数据(睡眠数据) 解决方案: 睡眠数据转移至海量备用存储器或近线存储器 常用的溢出存储器可分为: 低性能的磁盘存储器 近线存储器 串行磁带 …… 4.4 确定粒度级别 一方面,合理推测粒度级别 确定粒度还需要通过一定量的反复分析,根据用户反馈不断改进 另一方面,预测不同体系结构的需求 数据仓库中的数据需要处于最低的公共细节水平 4.5 反馈技巧 提高数据粒度的方法: 数据进入数据仓库时,进行汇总 数据进入数据仓库时,求平均值 数据集的最大/最小值放入数据仓库 只放入显然需要的数据 用条件逻辑选择需要的数据 系统需求了解到50%左右时即可以开始建造数据仓
原创力文档

文档评论(0)