ETL技术规范(通用).pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

ETL技术规范

第1章.ETL设计规范

ETL设计规范主要应用于ETL编码的先期工作。由于ETL全过程是面向数据

的,主要工作为数据的抽取(Extract)、变换(Transform)、装载(Loading),正

确界定所涉及到的数据范围和应该应用的变换逻辑对于后续的编码工作特别重

要,这些数据关系的确定,我们称之为Mapping(数据照射)。

正确定义数据照射关系是ETL成功推行的前提,一个完满的Mapping应该包

含以下几个部分:

1.1源数据集属性

此部分应该详细描述数据源的相关属性,包括:

实体名称——含数据本源名称(DSN)、所有者等信息;

字段名称——英文名称;

字段简述——中文名称,如为参数信息应该有相关取值讲解,如性别字段(1:

男;2:女;0:不详)

种类——字段种类,含长度和精度信息;

非空属性——字段可否可以为空;

精选

1.2目标数据集属性

此部分应该详细描述目标数据集的相关属性,包括:

实体名称——含数据本源名称(DSN)、所有者等信息;

字段名称——英文名称,建议依照字段含义来命名,而不是简单用拼音来定义

字段(此部分由负责设计数据集的人员控制);

字段简述——中文名称,对于保留字段应该给出默认值;

种类——字段种类,含长度和精度信息;非空属性——字

段可否可以为空;

精选

1.3ETL规则

主要描述ETL各个环节的变换规则,包括:

数据源过滤规则——描述从源数据集获取数据过程中过滤掉记录的规则;关

系规则——当源数据集为多个时,描述相互之间的关系关系;

列变换规则——描述源数据集到目标数据集的字段间的变换规则;此规则特别

重要,要清楚描述字段间的逻辑关系,包括业务逻辑;

目标数据集更新规则——描述目标数据集的更新策略,包括更新体系和更新频

度,如“每日全量更新”、“每周增量更新”等;

ETL作业列表——由于ETL所开发的作业之间包括必然的业务逻辑和编码逻

辑,因此调换过程中应依照必然的逻辑序次,此部分主要用来明确调换的序次,

包括:

作业名称——实现Mapping的作业名称,包括该作业功能描述;

调换序次——用序号也许是流程图模式描述作业的调换序次,需要综合考虑

业务逻辑、编码逻辑以及系统资源等多方面情况,在保证业务逻辑和编码逻辑的

基础上,经过控制调换,最大限度地合理利用系统资源;

精选

参数列表——列举每个作业中所使用的参数,不相同作业中的相同参数最好使

用相同的名称,便于调换时进行控制。

第2章.ETL开发规范

ETL项目的开发经常是多人团队开发模式,由于周期较长,时期难免会出现

开发人员交替现象。无论是开发过程中的人员交替还是从开发到系统运营之间的

变换,都需要优异的交接。为保证项目开发各个时期的平稳过分及顺利交接,在

开发过程中,应该依照必然的开发规范。主要包括:

命名规范

结构规范

代码封装规范

精选

2.1命名规范

作业命名规范

ETL是一个复杂的工作,数据库房的建设一般会开销70%以上的工作量在

ETL上面,而且这是一个认真活,任何一点小的错误都有可能造成后续工作的出

错和失败;其他,数据库房需要不断的更新保护,相应的ETL程序也需要进行相

关的更新保护,所开销的成本也很大。

一个好的命名规范,可以使ETL的程序更清楚易懂,很好地防备了开发过程

中出错;同时更好的可读性,也极大地减低了ETL程序的更新保护成本。作业命

名规则:

[JOBTYPE][DESCRIPTION][SEQNUM]

JOBTYPE:作业种类

DESCRIPTION:有效的描述信息

SEQNUM:作业的编号。由于必然的原因,有可

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档