数据仓库建模方法论.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概念模型 第三十页,共四十八页。 影响数据仓库粒度级别的主要因素 汇总数据 汇总数据能够改善数据交付处理性能,汇总数据不会节省存储空间,因为创建汇总的细节可能会继续被保留。汇总提供的好处主要包括: 在线存储需求减少 分析的标准化以及数据交付性能的改善 合并实体通过减少连接操作的数量,提高了数据交付处理的性能,并且可以增强一致性。 分离数据 根据稳定性和用法来分离数据。稳定性分析根据各个数据属性是否经常变化的特性将这些属性进行分组。 影响因素 描述 当前业务需求 粒度级别必须足以回答定位在该数据仓库迭代范围内的每一个业务问题。提供高的粒度级别增加了数据仓库和项目的开发成本,如果业务不需要细节,则增加的成本就没有商业价值。 未来业务需求 按照目前明确需求建立数据仓库,但在建立并抽取数据时要适应考虑未来的需求 数据挖掘需求 数据挖掘算法需要细节级明细数据 派生数据需求 派生数据在计算时使用了其它的数据元素,除非在代价和开发时间方面有很大增长,否则所选的粒度级别应该适用于存储所有用于派生其它数据元素的元素。 操作系统粒度 操作源系统中有效的细节级别,对于不同粒度的源系统需要决定是否在最低的公共级别上抽取数据,以使所有的数据很好的整合,或者从每一个系统中根据他的有效粒度来抽取数据。 存储开销 粒度级别对存储开销有很大影响 备份和恢复 数据仓库需要周期性地进行备份和恢复,细节越多,日常备份需要的时间也越多。 数据仓库粒度级别 第三十一页,共四十八页。 逆规范化指南 问题类型 解决方法 关系类型 层次关系:子对父通常有很强的依赖性。倾向于将把这些概念逆规范化到一个实体 同等关系:在独立的表中保存独立的实体,可以保证设计与业务规则保持一致。一对一关系:如果当一个实体值仅与来自另一个实体的一个实体值相关,反之亦然。倾向于逆规范化。 确定关系:父实体决定子实体的意义。通常为事务处理数据到引用数据的关系和关系实体,在多对多关系引入的关系表被认为是子,而参与多对多关系的两个表被认为是父。在事务处理引用关系中,事务处理表是子,而引用表是父。通常,子表很大且易变。父表通常稳定的多且小。所以倾向于把这两个实体保存在各自的表中。 参与率 确定关系中每个实体的参与性。对于一个给定的父实体数值,大概会有几个子实体数值。父子关系越接近一对一,将父实体逆规范化到子实体,将有最小数量的冗余。 父实体中有多 少数据元素 如果将父实体逆规范化到子实体,保证子实体中具有存放父实体的数据元素额外空间。 使用率 两个实体的耦合或相关程度如何。如果在许多用户查询和发布中,来自两个实体的数据元素将一起出现,那么,如果这些信息在同一表中而不是分布于多个表之内,则信息获取将会更快捷。 父实体是否变化 如果未来父实体不需要加入更多的数据元素或关系,那么新业务规则不会对父实体引起完整性和强制性影响。进行逆规范化的可行性就较强。如果未来父实体需要加入更多的数据元素或关系,那么新父实体数据元素会引起额外的冗余和空间。为了避免将来的维护和冗余问题,需要保持两个实体的独立性。 变动对比率 在同一时间周期内,两个实体的插入和更新频率是否相近。主要考虑性能和数据同步问题。即数据稳定性。 第三十二页,共四十八页。 风险数据集市-汇总层 第三十三页,共四十八页。 风险数据集市-应用层 第三十四页,共四十八页。 数据仓库建模方法论 第一页,共四十八页。 数据仓库概念 数据仓库数据架构 逻辑数据模型 数据模型标准化工艺流程 主题 第二页,共四十八页。 数据仓库领域的两位大师 Bill Inmon 数据仓库之父,数据仓库概念的创始人 理论: Corporate Information Factory(CIF) 主要著作:《数据仓库》、《企业信息工厂》 Ralph Kimball 数据仓库方面的知名学者 理论:Mutildimensional Architecture(MD) 第三页,共四十八页。 企业数据仓库EDW 企业数据仓库定义: 详细交易及相关业务数据的集合?? 包含必要的内部与外部信息?? 来自于多个数据源/业务操作系统?? 保存一定的时间周期?? 按照企业内业务规则所决定的模型来存储 企业数据仓库作用: 基于数据/信息来回答相关的业务问题和提供决策支持,并确保:一致、集成的数据存储?? 任意的数据粒度?? 在整个企业的业务范围?? 保持企业内一致的信息视图 企业内一致的信息视图(Single Version of the Truth) 集成的企业信息(Integrated corporate information) 不针对特定应用(Application neutral) 无冗余(Non redundant) 用于报表和决策支持(Reporting and decision

文档评论(0)

虾虾教育 + 关注
官方认证
文档贡献者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档