ETL规范.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETL规范

目 录 第1章 ETL规范概述 3 1.1. 规范定义 3 1.2. 应用范围 3 1.3. 实施价值 3 1.4. 预期读者 3 1.5. 主要章节 3 1.6. 文档约定 4 第2章 ETL简介 5 2.1. ETL含义 5 2.1.1. 数据抽取 5 2.1.2. 数据转换 5 2.1.3. 数据装载 5 2.2. ETL应用 6 2.3. ETL开发模式: 6 2.3.1. 标准式 7 2.3.2. 小型快速式 7 2.3.3. 复杂调优式 7 第3章 ETL设计规范 8 3.1. 源数据集属性 8 3.2. 目标数据集属性 9 3.3. ETL规则 10 3.4. Mapping版本管理 12 第4章 ETL开发规范 14 4.1. 命名规范 14 4.1.1. 作业命名规范 14 4.1.2. Stage与link命名规范 15 4.1.3. 作业注释规范 16 4.2. 功能定义规范 17 4.2.1. SequenceFile的文件定义: 17 4.2.2. Hash_File定义: 18 4.2.3. 参数化作业 21 4.3. 结构规范 22 4.3.1. 作业目录组织结构 22 4.3.2. 模块化结构 23 4.3.3. 临时文件目录组织 24 4.4. 代码封装规范 24 4.4.1. Routine与Shared Containers使用原则 24 4.4.2. 代码封装 25 4.4.3. 日志处理 27 4.4.4. 公共作业与Routines设计 27 4.4.5. 参数文件格式与Routines设计描述 28 第5章 ETL维护规范 31 5.1. 日志检查 31 5.1.1. 日志文件报告 31 5.1.2. Director作业状态排查 31 5.2. 出错处理 32 5.2.1. E类错误 32 5.2.2. T类错误 32 5.2.3. L类错误 32 5.3. 作业维护文档 34 5.3.1. 作业设计报告 34 5.3.2. 维护向导 34 5.3.3. 数据表血缘关系图(可选) 35 血缘关系图实例,有色表将用于后续ETL过程 36 5.4. 备份、恢复与版本控制 36 第6章 IBM WebSphere DataStage介绍 39 6.1. IBM WebSphere DataStage 39 6.2. DataStage工作环境及架构 39 6.3. DataStage特点 41 6.3.1. 多平台的支持 41 6.3.2. 多数据源及数据目标的支持 41 6.3.3. 强大的数据转换功能 42 6.3.4. 自项而下的图形化开发架构 42 6.3.5. 强大的集中式管理功能 42 6.4. DataStage产品优势 43 6.4.1. SOA面向企业服务架构 43 6.4.2. 并行处理能力 43 6.5. 使用介绍 44 ETL规范概述 规范定义 ETL规范是为保证ETL正确设计、实施和维护所定义的一些规则和方法。 应用范围 本规范适用于包括设计、实施、维护在内的各个环节。在ETL整个的过程中为设计人员、实施人员和维护人员提供一套完整的流程规范,对ETL涉及到的各个步骤和细节提供参考案例。 实施价值 本规范是根据石竹公司多年ETL项目咨询和实施经验总结而成,具有高度的可行性和应用价值。运用本规范管理ETL的全过程,可以有效地防止一些常见问题的发生,使整个过程——设计更科学、实施更快捷、维护更简便。 预期读者 从事ETL设计、开发以及维护的技术人员,具备ETL项目实施经验的人员可略过第二章内容。 主要章节 第一章:“概述”,介绍ETL规范的定义和应用范围。 第二章:“ETL简介”,介绍ETL的定义及应用。 第三章:“ETL设计规范”,介绍ETL设计阶段应该遵循的规则。 第四章:“ETL开发规范”,介绍ETL开发阶段应该遵循的规则。 第五章:“ETL维护规范”,介绍ETL维护阶段应该遵循的规则。 第六章:“IBM WebSphere DataStage”,简单介绍ETL工具DataStage的功能和使用。 文档约定 缩写:《规范》 突出显示注意的词语或事项: 需要突出显示注意的词语或事项将以红色斜体下划线显示。 本规范适用于以DataStage作为开发工具的ETL项目。 ETL简介 ETL含义 ETL是数据抽取(Extract)、转换(Transform)、装载(Loading)的缩写。 数据抽取 数据抽取是指从数据源获取所需数据的过程。数据抽取过程会过滤掉目标数据集中不需要的源数据字段或数据记录。 数据抽取可以采用PULL和PUSH两种方式PUSH就是指由源系统按照双方定义的数据格式,主动将符ETL系统PULL则是由ETL程序直接访问数据源来获取数据的方式Tran

文档评论(0)

aena45 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档