ETL培训文档模板.ppt

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Neusoft Co., Ltd. ETL培训文档 Beyond Technology 内容提要 ETL概述 ETL设计 ETL案例 ETL概述 ETL 顾名思义, 即数据抽取(Extract)、转换(Transform)、装载 (Load)的过程,它是构建数据仓库的重要环节。 ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取 到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中, 成为联机分析处理、数据挖掘的基础。 ETL概述 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程, 目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策 提供分析依据。ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会 花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计 ETL的时候我们也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到 ODS (Operational Data Store,操作型数据存储)中——这个过程也可以做一 些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提 高ETL的运行效率。 ETL三个部分中,花费时间最长的是“T” (Transform,清洗、转换)的部 分,一般情况下这部分工作量是整个ETL的2/3。数据的加载一般在数据清洗完 了之后直接写入DW (Data Warehousing,数据仓库)中去。 ETL设计 一、数据的抽取 这一部分需要在调研阶段做大量的工作,首先要搞清楚数据是从几个业务系统中来, 各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据,手工数据量有多大,是 否存在非结构化的数据等等,当收集完这些信息之后才可以进行数据抽取的设计。 1、对于与存放DW的数据库系统相同的数据源处理方法 这一类数据源在设计上比较容易。一般情况下,DBMS(SQLServer、Oracle)都会提 供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写 Select语句直接访问。 2、对于与DW数据库系统不同的数据源的处理方法 对于这一类数据源,一般情况下也可以通过ODBC的方式建立数据库链接——如 SQLServer和Oracle之间。如果不能建立数据库链接,可以有两种方式完成,一种是通 过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中。另 外一种方法是通过程序接口来完成。 ETL设计 3、对于文件类型数据源(.txt,.xls),可以培训业务人员利用数据库工具将这 些数据导入到指定的数据库,然后从指定的数据库中抽取。或者还可以借助工 具实现,如SQLServer2005的SSIS服务的平面数据源和平面目标等组件导入ODS 中去。 4、增量更新的问题 对于数据量大的系统,必须考虑增量抽取。一般情况下,业务系统会记录 业务发生的时间,我们可以用来做增量的标志,每次抽取之前首先判断ODS中记 录最大的时间,然后根据这个时间去业务系统取大于这个时间所有的记录。利 用业务系统的时间戳,一般情况下,业务系统没有或者部分有时间戳。 ETL设计 二、数据的清洗转换 一般情况下,数据仓库分为ODS、DW两部分。通常的做法是从业务系统到 ODS做清洗,将脏数据和不完整数据过滤掉,在从ODS到DW的过程中转换,进行 一些业务规则的计算和聚合。 1、数据清洗 数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主 管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的 数据主要是有不完整的数据、错误的数据、重复的数据三大类。 ETL设计 (1)不完整的数据:这一类数据主要是一些应该有的信息缺失,如供应商的 名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹 配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户 提交,要求在规定的时间内补全。补全后才写入数据仓库。 (2)错误的数据:这一类错误产生的原因是业务系统不够健全,在接收输入 后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字 符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类 数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通 过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式 不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去 业务系统数据库用SQL的方式挑

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档