- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
33数据仓库设计逻辑模型.ppt
第一次作业题目 请详细描述数据库应用系统与数据仓库之间的区别。(越详细越好,越全面越好) 下星期三以前交。 数据仓库设计——逻辑模型 内容提要 数据仓库的逻辑模型设计 分析主题域 粒度模型设计 数据分割设计 数据抽取模型设计 元数据模型建立 数据仓库的逻辑模型设计 数据仓库的逻辑模型设计任务: 分析主题域,确定要装载到数据仓库的主题; 确定粒度层次划分; 确定数据分割策略; 关系模式的定义和记录系统定义、确定数据抽取模型等。 数据仓库的逻辑模型设计 逻辑模型最终设计成果: 每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中; 粒度划分; 数据分割策略; 表划分和数据来源等。 分析主题域 数据仓库的实体定义 数据仓库的实体定义 粒度层次划分 粒度设计步骤 数据量的粗略估算 确定采用双重还是单一的粒度 确定粒度级别 反馈与调整 数据量的粗略估算 对每一张表估算这几个值 数据的行数 数据所占存储设备空间 数据所需要的索引空间 只能做数据级上的估算 从一方或多方收集信息进行合理估算 粗略估算数据量算法 双重粒度和单一粒度 表的行数是影响粒度划分主要的因素 将数据库的总行数与下表进行比较 确定粒度的循环和反复 选择合适的粒度级别是体系结构设计环境成功的关键。 选择粒度级别的一般方法,是利用常识,建立数据仓库的一小部分,并让用户去访问这些数据。然后仔细聆听用户的意见,根据他们的反馈意见适当调整粒度的级别。 最坏的想法是想要事先设计好所有的粒度级别,再进行数据仓库的建造。 即使在最好的情况下,能使设计的5 0 %是正确的就已经很不错的了。数据仓库环境的特点就是只有当决策支持系统分析员实际看到了报告之后,才能想像哪些是真正需要的。 确定粒度的循环和反复 提高粒度的方法 当源数据置入数据仓库时,对它进行汇总。 当源数据置入数据仓库时,对它求平均或进行计算。 把最大/最小的设定值置入数据仓库。 只把显然需要的数据置入数据仓库。 用条件逻辑选取记录的一个子集置入数据仓库。 对于数据怎样轻度汇总是没有限制的(限制只存在于设计者的脑海里)。 例:银行粒度设计 例:银行粒度设计 数据分割 数据分片概念 水平分片 垂直分片 混合分片 导出分片 按时间进行数据分割是最普遍的 分割标准 数据量 数据分析处理的实际情况 简单易行 粒度划分策略 数据仓库的数据抽取模型 数据仓库的数据抽取、转换与加载计划 影响数据抽取、转换与加载的因素 数据格式 坏数据 系统的兼容性 数据源的变化 数据抽取的时间 数据抽取、转换与加载对策 全库比较 利用程序日志 利用数据库日志 利用时间戳或利用位图索引 数据仓库的数据清理转换方法 数据仓库的数据清理转换方法 类型转换 串操作 数学函数 参照完整性 关键字翻译 聚集运算 数据源抽取对象表 数据源抽取规则表 数据抽取的目标列与源列对应关系表 数据抽取过程的排序、概括和导出情况表 数据概括表与事实表对应关系 数据仓库的元数据模型建立与应用 逻辑模型的评审 逻辑模型的文档内容: 主题域分析报告, 数据粒度划分模型, 数据分割策略, 指标实体、维实体与详细类别实体的关系模式和 数据抽取模型。 逻辑模型的评审要点 对逻辑模型的评审主要集中在主题域是否可以正确地反映用户的决策分析需求。 从用户对概括数据使用的要求,评审数据粒度的划分和数据分割策略是否可以满足用户决策分析的需要。 为提高数据仓库的运行效率是否需要对关系模式进行反规范化处理。 数据的抽取模型是否正确地建立了数据源与数据仓库的对应关系。 数据的约束条件和业务规则是否在这些模型中得到了正确的反映。 * * 客户固有信息:客户号,客户名,性别,年龄,文化程度,住址,电话等 客户经济息:客户号,年收入,家庭总收入等 客户号 客 户 销售单固有信息:销售单号,销售地址等 销售信息:客户号,商品号,销售价,销售量、销售时间等 销售单号 销 售 商品固有信息:商品号,商品名,类型,颜色等 商品采购信息:商品号,供应商号,供应价,供应日期,供应量等 商品库存信息:商品号,库房号,库存量,日期等 商品号 商 品 属性组 公共码键 主题名 …… …… …… 数据每月汇总一次,但是业务处理系统的数据每日需要更新一次,因此更新频率为每日一次。 大容量,其上限是354,000,000,000,考虑到各种客户类型与各种商品的组合情况,一般很少达到。 Order_Detail 大约有500种商品,商品的更新是每月一次,数据更新也照此。 小容量,500种商品 Product 每月对客户情况进行一次分析,更新频率也为每月一次 中等容量,有100个重点客户,2000个跟踪客户 Customer 更新频率 容量 实体 …… …… …… …… …… Money(float) 正的金额数 Produ
文档评论(0)