ECIFETL总体设计说明书V01.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ECIFETL总体设计说明书V01

中国大地财产保险股份有限公司 企业级客户信息管理平台项目(ECIF) ETL总体设计说明书 文档修订记录表 版本号 作者 操作 日期 说明 目 录 第1章 引言 4 1.1 编写目的 4 1.2 预期读者 4 1.3 定义 4 1.4 参考资料 4 第2章 ETL设计目标和原则 5 2.1 系统目标 5 2.2 数据目标 5 2.3 功能目标 5 2.4 设计原则 5 第3章 开发工具选择 6 3.1 开发工具比较 6 3.1.1 ETL Plus 6 3.1.2 存储过程 6 3.1.3 Unix Shell 7 3.2 开发工具选择结论 7 第4章 ETL开发流程设计 8 4.1 数据分析 8 4.2 开发流程 8 4.3 测试流程 10 4.4 上线流程 11 第5章 ETL总体设计 12 5.1 ETL总体逻辑架构 12 5.2 ETL关键任务设计 13 5.3 ETL调度控制设计 15 5.3.1 实现目标 16 5.3.2 触发动作 16 5.3.3 检查运行环境 16 5.3.4 执行作业 17 5.3.5 调度配置 17 5.3.6 日志记录 18 5.3.7 系统参数 18 5.4 ETL备份恢复设计 19 5.4.1 程序备份 19 5.4.2 数据文件备份 19 5.4.3 日志文件备份 19 5.5 ETL测试设计 19 5.5.1 ETL功能测试 19 5.5.2 数据准确性测试 20 5.5.3 性能测试 20 第6章 ETL开发规范 21 6.1 ETL程序开发规范 21 6.2 目录及权限定义规范 21 6.3 文件格式定义规范 22 6.3.1 日志文件格式定义规范 22 6.3.2 源数据文件格式定义规范 22 引言 编写目的 本文档是为明确中国大地保险ECIF系统的ETL架构设计而编制的,为中国大地保险ECIF项目的ETL系统开发后续工作提供指南。ETL开发小组的将以本设计文档为基础,进行相应的功能概要设计和详细设计。 预期读者 本文档的预期读者为用户代表、数据库设计人员、概要设计和详细设计人员、开发人员、测试人员和项目相关手册编写人员。 定义 ECIF:企业级客户信息管理(Enterprise Customer Information Facility)。 ETL:Extraction(抽取)、Transformation(转换)、Load(加载)。 Reject文件:ETL Plus 处理过程非法数据的输出文件; ETL Plus JOB:ETL Plus开发的JOB。 参考资料 《大地保险数据质量评估报告》 ETL设计目标和原则 系统目标 建设一个实现ECIF项目的转换、加载和调度全过程的ETL平台。 数据目标 按照模型的要求完成从源表到ECIF系统目标表的转换处理:包含完整的获取系统需要的源表和字段,对数据进行清洗和加载,完成个人/企业客户的归并,从客户出发完成各类指标的分析,形成最终的ECIF模型的客户数据,并保证数据的正确性。 功能目标 数据加载:将源系统提供的数据文件经过清洗后加载到ECIF系统的缓冲区中,供后续的转换工作使用; ETL调度:ETL调度需要完成整个系统的依赖关系,转换过程无需人工干预; 错误和异常处理:提供ETL系统的错误及异常处理机制,增强系统的可靠性; 提取公共模块:以提取公共模块的方式提高ETL作业的复用性,降低ETL代码的维护难度; 设计原则 提供ETL各模块的结构详细定义、实现详细逻辑、步骤等。 考虑关键路径处理效率的最优 考虑JOB的拆分整合关系 考虑数据的重复利用 考虑文件落地策略 考虑JOB间依赖的适中 开发工具选择 开发工具比较 ETL Plus (1)优点: 快速的ETL开发工具。 可管理性强、可维护性强。 支持并行运行(包括:Job内部各Stage之间的并行;Stage在各节点的并行),未来实现网格技术后移植性强。 (2)缺点: 除ETL外,要实现其它功能局限性非常强。比如:不支持循环。 图形化组件拖拽/设置方式,难以自定义过程。 若Job复杂,难以阅读,不利于扩展与维护。 开发过程不便于调试与纠错。 与底层操作系统的交互性方面较差。比如:调用OS的可执行程序只能通过Execute Command组件进行封装调用,但是除了返回码外其它参数的传递较难实现。 (3)适用范围: 单表(或多表的简单整合)的简单加工类需求,尤其是ETL方面。 存储过程 (1)优点: 最全面深入地利用数据库核心技术。 过程处理/控制能力强。 开发过程中调试与纠错方便。 支持事务回滚。 (2)缺点: 并行处理能力差,容易造成数据库服务器处理压力大 需要自行编写代码实现。 (3)适用范围: 需要数

文档评论(0)

xjj2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档