ETL维护手册.doc

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ETL维护手册.doc

ETL系统维护手册 概述   文件包括以下方面的内容: 简要描述了ETL系统的概念,目标和系统边界。 描述了ETL系统的整个处理流程。 描述了ETL系统的系统结构和功能模块。 确定了ETL服务器的目录结构和ETL作业的命名原则,从而能够以此为依据来设计、管理经营分析系统的数据转换作业。 ETL系统概念 ETL系统是经营分析系统的一个子系统,完成经营分析系统所必须的ETL过程。 ETL是extraction,transformation和load的缩写,意思是抽取,转换和加载。 下面对三个概念分别说明: 抽取:将经营分析所关注的原始的未经转换的源数据从源系统中抽取出来,按照一定的格式形成数据块,并按照特定的传输协议从源系统传到ETL系统,做为ETL系统下一步操作的数据源。 转换:将源系统传来的源数据按照经营分析系统的所规定的正确性,一致性,无冗余性的要求进行转换。 加载:将数据加载到经营分析系统的数据仓库中。 ETL目标 ETL系统的目标是经过适当的抽取,转换和加载过程,将经营分析系统所关注的数据从源系统中正确地,一致地,无冗余地载入经营分析系统的数据仓库中。 ETL系统边界 ETL系统边界包括两部分: ETL系统同源系统的接口界面: ETL系统同源系统的交互是通过文件形式完成的。源系统按照经营分析系统的要求按照特定的周期以特定的格式生成源数据文件,ETL系统取得源系统生成的数据文件进行下一步的处理。 ETL系统同经营分析系统其它子系统的接口界面: ETL系统同经营分析系统其它子系统的交互是通过数据仓库的基层表形式完成的。ETL按照经营分析系统的要求,将数据加载到数据仓库的基层表,经营分析系统其它子系统根据基层表中的内容形成面向分析使用的中间表,多维数据库表等等。 ETL处理流程 ETL处理流程包括以下几个方面: 取数据文件流程:取数据文件流程即是ETL系统同源系统的接口处理流程,包括以下几个步骤: 取得源系统当前传送的数据文件文件名列表 校验文件的完整性,根据文件名列表中文件大小和我们实际取得的文件的文件大小进行比较,可以得到源数据是否完整。若文件名列表中文件大小和我们实际取得的文件的文件大小相等,表示数据文件是完整的,若不相等,表示数据文件不完整。将不完整文件转移到特定目录中,并向监控系统提出报警信息。 校验文件的有效性,根据文件名中所带的任务周期信息判断源系统产生的数据文件是否是当前的任务周期所需的数据文件。若数据文件无效,将数据文件转移到特定目录中,并向监控系统提出报警信息。 加载流程:加载流程是将校验通过的正确的数据文件无转换地直接加载到数据仓库的ETL临时表,临时表的结构同于源系统传来的数据文件的结构。 转换流程:转换流程是将ETL临时表中的数据按照正确性,一致性,无冗余性的原则转换到数据仓库的基层表中。 转换原则包括以下各点: 正确性:要求源数据各字段按照确定的转换规则正确地转换到数据仓库的基层表中,这是转换的最基本的要求。 一致性:要求不同数据源取来的具有相同含义的字段取值按照数据仓库基层表的数据定义做归一化处理。 无冗余性:由于不同数据源传来的数据中难免有部分数据重复,所以在转换过程中就要求删除这部分冗余数据,使得加载到数据仓库的基层表中的数据应是无冗余的。 转换类型包括以下各点: 字段类型转换:由于源数据的字段定义不一定同于数据仓库基层表字段定义,所以就要求字段类型转换,转换过程不应造成信息丢失和错误转换。 归一化转换:不同数据源取来的具有相同含义的字段取值按照数据仓库基层表的数据定义做归一化处理 数据合并:由于数据仓库基层表的实体定义有可能对应到源系统中多个实体,在这种情况下就要求将源系统中多个实体的数据合并入一个数据仓库基层表实体中。在合并过程中应注意无冗余性转换原则。 数据拆分:由于源系统中一个实体有可能对应到数据仓库基层表的多个实体,在这种情况下就要求将源系统中一个实体的数据拆分到数据仓库多个基层表中。 转换逻辑组成: 转换逻辑由多个独立的任务组组成 每一个任务组由多个相互依赖的任务组成 任务是转换逻辑的最小单位,包含具体的转换逻辑,实现特定 频率,特定时间的数据转换。 ETL系统结构 ETL功能模块 ETL总控模块: ETL总控模块负责调度取数据模块,多个加载模块,多个转换模块。 它包括以下部分: 任务配置表,它包含了以下信息: ETL过程所须的所有任务标识信息,包括任务标

文档评论(0)

蝶恋花 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档