网站大量收购闲置独家精品文档,联系QQ:2885784924

数据仓库建模方法论.ppt

  1. 1、本文档共47页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
影响数据仓库粒度级别的主要因素 汇总数据 汇总数据能够改善数据交付处理性能,汇总数据不会节省存储空间,因为创建汇总的细节可能会继续被保留。汇总提供的好处主要包括: 在线存储需求减少 分析的标准化以及数据交付性能的改善 合并实体通过减少连接操作的数量,提高了数据交付处理的性能,并且可以增强一致性。 分离数据 根据稳定性和用法来分离数据。稳定性分析根据各个数据属性是否经常变化的特性将这些属性进行分组。 影响因素 描述 当前业务需求 粒度级别必须足以回答定位在该数据仓库迭代范围内的每一个业务问题。提供高的粒度级别增加了数据仓库和项目的开发成本,如果业务不需要细节,则增加的成本就没有商业价值。 未来业务需求 按照目前明确需求建立数据仓库,但在建立并抽取数据时要适应考虑未来的需求 数据挖掘需求 数据挖掘算法需要细节级明细数据 派生数据需求 派生数据在计算时使用了其它的数据元素,除非在代价和开发时间方面有很大增长,否则所选的粒度级别应该适用于存储所有用于派生其它数据元素的元素。 操作系统粒度 操作源系统中有效的细节级别,对于不同粒度的源系统需要决定是否在最低的公共级别上抽取数据,以使所有的数据很好的整合,或者从每一个系统中根据他的有效粒度来抽取数据。 存储开销 粒度级别对存储开销有很大影响 备份和恢复 数据仓库需要周期性地进行备份和恢复,细节越多,日常备份需要的时间也越多。 数据仓库粒度级别 逆规范化指南 问题类型 解决方法 关系类型 层次关系:子对父通常有很强的依赖性。倾向于将把这些概念逆规范化到一个实体 同等关系:在独立的表中保存独立的实体,可以保证设计与业务规则保持一致。一对一关系:如果当一个实体值仅与来自另一个实体的一个实体值相关,反之亦然。倾向于逆规范化。 确定关系:父实体决定子实体的意义。通常为事务处理数据到引用数据的关系和关系实体,在多对多关系引入的关系表被认为是子,而参与多对多关系的两个表被认为是父。在事务处理引用关系中,事务处理表是子,而引用表是父。通常,子表很大且易变。父表通常稳定的多且小。所以倾向于把这两个实体保存在各自的表中。 参与率 确定关系中每个实体的参与性。对于一个给定的父实体数值,大概会有几个子实体数值。父子关系越接近一对一,将父实体逆规范化到子实体,将有最小数量的冗余。 父实体中有多 少数据元素 如果将父实体逆规范化到子实体,保证子实体中具有存放父实体的数据元素额外空间。 使用率 两个实体的耦合或相关程度如何。如果在许多用户查询和发布中,来自两个实体的数据元素将一起出现,那么,如果这些信息在同一表中而不是分布于多个表之内,则信息获取将会更快捷。 父实体是否变化 如果未来父实体不需要加入更多的数据元素或关系,那么新业务规则不会对父实体引起完整性和强制性影响。进行逆规范化的可行性就较强。如果未来父实体需要加入更多的数据元素或关系,那么新父实体数据元素会引起额外的冗余和空间。为了避免将来的维护和冗余问题,需要保持两个实体的独立性。 变动对比率 在同一时间周期内,两个实体的插入和更新频率是否相近。主要考虑性能和数据同步问题。即数据稳定性。 风险数据集市-汇总层 风险数据集市-应用层 数据仓库概念 数据仓库数据架构 逻辑数据模型 数据模型标准化工艺流程 主题 步骤 任务 项目准备与策划 模型设计人员的主要职责是参与制定模型相关的项目实施策略,包括确定数据源范围,明确最终提交物和项目日程等。此外,模型设计人员在进场前可参与提出客户相关资料的具体需求,,包括一些参考模板,以保证后续工作的输入。 项目启动 模型设计人员参与模型相关的工作流程制定、标准文档的客户化,负责在整个项目组范围内组织模型培训,明确LDM在整个信息架构中的定位和作用,并就工作方法达成共识。 系统需求 模型设计人员参与业务访谈、数据和功能的需求分析 系统设计 系统设计工作是模型组工作的主体,主要由模型小组主导。它包括:信息调研、构建概念模型、逻辑数据模型详细设计,以及物理数据模型设计。 系统开发与单元测试 模型设计人员主要起到支持的作用,为开发人员解释模型设计,协助验证单元测试的结果等,并根据测试发现的问题进行相应修改和变更。 数据模型标准工艺概述 项目准备与策划 在项目准备与策划阶段,模型设计人员的主要职责是参与制定模型相关的项目实施策略,包括确定数据源范围,明确最终提交物和项目日程等。此外,模型设计人员在进场前可参与提出客户相关资料的具体需求,包括一些参考模板,以保证后续工作的输入。 确定项目人员 本阶段将确定参与项目实施的所有人员名单,包括全职和兼职人员。其中,在确定模型人员时,需考虑对人员进行如下要求: ? 熟悉使用建模工具 ? 拥有丰富模型设计经验 ? 熟悉银行业务 ? 较强的沟通表达能力 ? 具备数据敏感性 收集

您可能关注的文档

文档评论(0)

Jermain2014 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档