网站大量收购独家精品文档,联系QQ:2885784924

etl技术规范通用.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ETL技术规范通用 1 2020 年 4 月 19 日 文档仅供参考 ETL技术规范 第 1章. ETL设计规范 ETL设计规范主要应用于 ETL编码的前期工作。由于 ETL全过 程 是 面 向数 据 的, 主 要 工作 为 数据 的 抽 取( Extract ) 、转 换 (Transform)、装载( Loading),正确界定所涉及到的数据范围 和应当应用的转换逻辑对于后续的编码工作非常重要,这些数据 关系的确定,我们称之为 Mapping (数据映射)。 正确定义数据映射关系是 ETL 成功实施的前提,一个完善的 Mapping 应该包含以下几个部分: 1.1 源数据集属性 此部分应该详细描述数据源的相关属性,包括: 实体名称 ——含数据来源名称( DSN)、所有者等信息; 字段名称 ——英文名称; 字段简述 ——中文名称,如为参数信息应该有相关取值解 释,如性别字段( 1:男; 2:女; 0 :不详) 类型 ——字段类型,含长度和精度信息; 非空属性 ——字段是否能够为空; 2 2020 年 4 月 19 日 文档仅供参考 1.2 目标数据集属性 此部分应该详细描述目标数据集的相关属性,包括: 实体名称 ——含数据来源名称( DSN)、所有者等信息; 字段名称 ——英文名称,建议根据字段含义来命名,而不是 简单用拼音来定义字段(此部分由负责设计数据集的人员控 制); 字段简述 ——中文名称,对于保留字段应该给出默认值; 类型 ——字段类型,含长度和精度信息; 非空属性 ——字段是否能够为空; 3 2020 年 4 月 19 日 文档仅供参考 1.3 ETL规则 主要描述 ETL各个环节的转换规则,包括: 数据源过滤规则 ——描述从源数据集获取数据过程中过滤掉 记录的规则; 关联规则 ——当源数据集为多个时,描述相互之间的关联关 系; 列转换规则 ——描述源数据集到目标数据集的字段间的转换 规则;此规则非常重要,要清晰描述字段间的逻辑关系,包括业 务逻辑; 目标数据集更新规则 ——描述目标数据集的更新策略,包括 更新机制和更新频度,如“每日全量更新”、“每周增量更新” 等; ETL作业列表 ——由于 ETL所开发的作业之间包含一定的业务 4 2020 年 4 月 19 日 文档仅供参考 逻辑和编码逻辑,因此调度过程中应遵循一定的逻辑顺序,此部 分主要用来明确调度的顺序,包括:

文档评论(0)

而级 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档