- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ETL技术规范通用
1
2020 年 4 月 19 日
文档仅供参考
ETL技术规范
第 1章. ETL设计规范
ETL设计规范主要应用于 ETL编码的前期工作。由于 ETL全过
程 是 面 向数 据 的, 主 要 工作 为 数据 的 抽 取( Extract ) 、转 换
(Transform)、装载( Loading),正确界定所涉及到的数据范围
和应当应用的转换逻辑对于后续的编码工作非常重要,这些数据
关系的确定,我们称之为 Mapping (数据映射)。
正确定义数据映射关系是 ETL 成功实施的前提,一个完善的
Mapping 应该包含以下几个部分:
1.1 源数据集属性
此部分应该详细描述数据源的相关属性,包括:
实体名称 ——含数据来源名称( DSN)、所有者等信息;
字段名称 ——英文名称;
字段简述 ——中文名称,如为参数信息应该有相关取值解
释,如性别字段( 1:男; 2:女; 0 :不详)
类型 ——字段类型,含长度和精度信息;
非空属性 ——字段是否能够为空;
2
2020 年 4 月 19 日
文档仅供参考
1.2 目标数据集属性
此部分应该详细描述目标数据集的相关属性,包括:
实体名称 ——含数据来源名称( DSN)、所有者等信息;
字段名称 ——英文名称,建议根据字段含义来命名,而不是
简单用拼音来定义字段(此部分由负责设计数据集的人员控
制);
字段简述 ——中文名称,对于保留字段应该给出默认值;
类型 ——字段类型,含长度和精度信息;
非空属性 ——字段是否能够为空;
3
2020 年 4 月 19 日
文档仅供参考
1.3 ETL规则
主要描述 ETL各个环节的转换规则,包括:
数据源过滤规则 ——描述从源数据集获取数据过程中过滤掉
记录的规则;
关联规则 ——当源数据集为多个时,描述相互之间的关联关
系;
列转换规则 ——描述源数据集到目标数据集的字段间的转换
规则;此规则非常重要,要清晰描述字段间的逻辑关系,包括业
务逻辑;
目标数据集更新规则 ——描述目标数据集的更新策略,包括
更新机制和更新频度,如“每日全量更新”、“每周增量更新”
等;
ETL作业列表 ——由于 ETL所开发的作业之间包含一定的业务
4
2020 年 4 月 19 日
文档仅供参考
逻辑和编码逻辑,因此调度过程中应遵循一定的逻辑顺序,此部
分主要用来明确调度的顺序,包括:
文档评论(0)