数据模型培训2--NCR建模规范.pptVIP

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据模型培训2--NCR建模规范

NCR 建模规范 NCR(中国)有限公司数据仓库事业部 逻辑数据模型设计步骤 主要任务: 转换逻辑数据模型(LDM)为物理数据模型 定义主索引、次索引 非正规化处理(demoralizations) 数据库建立 设计优化 数据库功能测试 使用工具: ERWin 交付项目: 物理数据模型(PDM) LDM vs. PDM 逻辑数据模型和物理数据模型可能不一样 逻辑数据模型完全从逻辑意义上,公正的表示业务数据 物理数据模型是在物理平台上的某次具体实施,从LDM中来,但又不完全相同 物理数据模型建设需要综合考虑业务规则,平台本身,数据源等因素 总体规范 在ERwin模型图中,实体(表)不能重叠,实体(表)之间的关系线尽量避免交叉; 逻辑模型和物理模型体现在同一ERwin文件中,通过Logical only或Physical Only来表现实体和表、属性和字段的差异; 物理模型必须和库中表结构定义完全一致。这就要求对库中表的任何更改,必须同步修改模型; 数据库对象命名规范 数据库对象命名规范(Cont.) 数据库对象命名规范(Cont.) 数据库对象命名规范(Cont.) 数据库对象命名规范(Cont.) 字段命名规范 字段名由字母,数字和下划线组合而成; 字段名应采用能够准确反映其中文含义的英文单词或英文单词缩写构成,若是完整英文单词,采用首字母大写;若是单词缩写,全部使用大写字母; 在数据库多个实体中具有相同含义的字段名命名应保持一致; 字段名不要使用系统的保留字,长度不可以超过30个字符 数据类型选取原则 字符类型字段可采用CHAR或VARCHAR类型,具体选择CHAR还是VARCHAR视该字段取值是否定长字符。定长数据采用CHAR类型,非定长数据需要考虑: 数据的平均占用长度(本工作需要将数据导入数据仓库后才能确定) VARCHAR数据类型需要额外的两个字节来存放数据起始位 CHAR类型可做多值压缩,而VARCHAR数据类型不可以 以确定选择CHAR还是VARCHAR数据类型; 数据类型选取原则 整数根据实际字段取值大小,选取byteint, smallint和integer三种表示方法之一; 浮点型字段根据源系统数据类型定义中小数点后精确位数,采用Decimal(x,y)数据类型,其中y为小数点精确位数; 日期一律采用YYYYMMDD格式,取Date类型; 时间一律采用HHMMSS格式,取integer format ‘999999’格式 如无特殊需求,在数据仓库模型设计中将源系统中同时包含‘日期’和‘时间’的日期类型(Date,‘YYYYMMDD HH24MISS’)字段尽量分割成‘日期’和‘时间’两个字段表示; 数据类型选取原则(Cont.) 根据数据实际情况,尽可能选择占用空间小且足以存放该数据的数据类型 索引选取原则 PI选择原则: 作为PI的字段要尽可能多的被访问(Access)(作为Where条件或者关联条件); 组成PI字段取值尽量接近唯一,这样才能保证数据分布(Distribution)均匀; 组成PI的字段尽可能稳定(Volatile),不被更新。 通常: PK字段可作为UPI或PK字段中部分作为NUPI; 单字段做PK的表可用该字段做UPI; 多字段做PK的表可从中选择唯一性较强且经常被访问的字段做NUP 物理模型设计阶段定义的PI,在实际数据生成或加载到数据仓库 后,发现并不适合。此时,需要对PI字段重新选定。 次索引(Secondary Index)通常在物理模型设计阶段暂不考虑,除非在设计阶段能预见数据访问时会存在性能问题,需通过建立SI来优化。 重要物理属性-主索引 主索引 对于索引我们规定不为其命名(因为可变临时表不允许带有名称的索引),在Erwin默认情况下,会对其生成一个系统名称,我们需要修改默认设置。 对于PK字段作为UPI的表,直接选中PRIMARY选择框。然后Rename 该索引的名称为空格 对于PK字段不适宜做PI的表,需新建一索引,指定其组成字段,并设置其为非唯一主索引。同样,在新建索引的时候,Key Group和Index的名称都修改为空格。 重要物理属性-分区主索引 在Teradata V2R5及以上版本中,支持分区主索引。但在ERwin中没有地方能直接设置Partition字段,只能通过Post Scripts在DDL一级实现。 重要物理属性-多值压缩 多值压缩在初期物理模型设计阶段是无法确定全部取值的,只有等数据加载到数据仓库后,再根据每个字段的取值,去修正压缩取值列表 。 重要物理属性-非空及区分大小写 在数据仓库需要比对源系统提供的前后两个抽取周期的信息变化(使用Not In全字段比对),故对各字

文档评论(0)

153****9595 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档