一个较为详细ETL系统实现方案.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个较为详细的ETL系统实现方案 一个较为详细的ETL系统实现方案 影响, 清洗, 监控, 机构, 汇率 1 ETL流程及调度设计(ETL Schedule)(PSP) 1. ETL调度的目标 快速见效系统要抽取39家分行四个系统的数据进行加工处理,数据从下传文件到ODS库,ODS库到LDM,再计算PI值和汇总PI,整个ETL处理过程需按一定步骤和满足某些条件进行,某些关键的文件如汇率数据、机构表等都会影响整个ETL的处理,因此,快速见效的ETL处理流程将是一个比较复杂的过程。 考虑到将来ETL处理的多样性和复杂性,引入了Job的概念,将ETL处理过程分为一个一个的Job,Job可能是清洗\加载\转换,也可能是PI加工。为了对复杂的ETL处理过程更好的调度和监控,专门设计一个ETL调度系统。通过ETL调度系统的开发使用,将清晰、高效地通过Job调度的方式处理快速见效的ETL过程。 2. ETL调度功能说明 调度维护 1) 调度系统参数维护,对调度系统的公共参数:期数、进程数、数据日期、本期开始日期和本期结束日期进行设置和修改。 2) 下传文件信息维护,维护所有区域的下传文件名称、文件状态、文件数据日期和对应区域的归属关系。 3) 作业步定义与维护,定义作业对应的实际ETL处理过程,生成作业编号,定义作业类型和作业的驱动关系,作业的运行所需要的条件。 4) 调度异常处理,对调度过程中出现的异常情况进行处理,提供错误查找、出错重跑功能。 日志管理 1) 调度过程日志,管理记录调度中的主要过程和异常信息,如调度开始、调度完成、数据库操作异常和读写文件异常的日志。 2) Job执行日志,管理记录Job执行信息的日志,提供该日志的查询、删除和执行状态重置功能。 3) Job详细事件日志,管理记录Job执行中的详细事件(清洗记录条数、数据库具体操作情况)的日志,提供对日志的查询、删除操作。 作业调度 正常情况下的作业调度,对整个ETL过程进行调度,提供分段提交处理和自动提交处理功能。 可调度的Job类型 1) C程序(清洗),ETL调度提供与C程序的接口,从而可以对C程序进行调度。 2) 用C封装的SQLLDR(加载),将ORACLE SQLLDR封装在C程序中进行调度。 3) PROC程序(合并、转换),对合并和转换过程,调度提供相应的接口,从而对ORACLE的PROC程序进行调度。 4) 存储过程(转换),将存储过程封装在PROC程序中进行调度。 5) DataStage(PI加工),调度系统提供了与DataStage的接口,可以对DataStage各个种类的Job进行调度。 作业步(ETL_Step)的功能类型及数据处理 0. 文件FTP: 将各个分行的源业务系统(NLNS、SBS、NACS)的以预定的文件格式以FTP方式通过中行网络传输到QUICK WIN项目系统的ETL服务器。 1. 文件注册:0中FTP的源数据文件,经过解压缩后,必须在QUICK WIN项目系统中注册,只有经过文件注册过程后QUICK WIN项目系统才能确认“那些分行的源数据” 已经正确到达,ETL系统就可以相应的处理流程。 2. 数据清洗:从各分行FTP来的源数据文件,可能存在非法数据或冗余数据或者数据规则标准不统一,而且文件格式上也不能被QUICK WIN项目的ETL过程立即使用,因此必须对数据文件进行数据清洗(删除非法、冗余数据、统一数据规则标准、转换成QUICK WIN项目的ETL过程能“加载”处理的文件格式)。 3. 数据加载:将清洗后的数据(文件格式)通过SQL LOADER加载到ORACLE数据库相应的数据库表中。 4. ODS数据合并:将各个分行的相同类型的源业务系统数据合并到ORACLE数据库中同一张数据表中。 5. LDM数据加工:面向业务生产数据(ODS数据库表中的数据)根据“QUICK WIN分析模型”将数据转换、加工成面向分析主题的“分析型数据”。 6. PI加工:根据业务需求、业务规则和分析模型,从LDM数据表中加工出QUICK WIN所需的PI。 7. 报表加工:根据业务需求、业务规则和分析模型,从LDM数据表和PI表中中加工出QUICK WIN所需的报表。 8. ETL调度程序:调度ETL加工各个过程的运行。 9. 监控程序:监控ETL过程的运行状态(加工进度、加工效率、成功、警告、错误等)信息,及时向系统的运行维护人员报告系统运行状态。 作业步(ETL_Step)的流程和依存关系。 1) 清洗类型的Job的运行依赖于相应下传文件的状态,必须是在下传文件检查及登记后才能进行清洗Job的调度。 2) ODS层加载类型Job的运行依赖于相应的清洁文件是否由清洗程序生成,即相应的清洗Job是否正

文档评论(0)

wtw4044 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档