- 123
- 0
- 约9.83千字
- 约 78页
- 2021-02-26 发布于四川
- 举报
开启ETL之旅;;ETL的3个字母分别代表Extract(抽取)、Transform(转换)和Load(装载)。ETL不仅仅是对一个企业部门、一个应用系统数据的简单整理,更是跨部门、跨系统的数据整合处理,在企业数据模型的基础上,构建合理的数据存储模式,建立企业的数据交换平台,满足各个应用系统之间的数据交换需求,提供全方位的数据服务,并满足企业决策的数据支持需求。
ETL原本是作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据,如关系数据、平面数据文件等抽取至临时中间层后进行清洗、转换、集成,最后加载至数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。现在ETL也越来越多地应用于信息系统中数据的迁移、交换和同步等场景中。
;ETL主要包括数据抽取、数据转换、数据装载3部分内容,具体如下。
数据抽取:从数据源端的系统中,抽取目标端系统需要的数据。
数据转换:从数据源端获取的数据按照业务需求,转换成目标端要求的数据形式,并对错误、不规范、不一致的数据(俗称“脏”数据)进行清洗和加工。
数据装载:将转换后的数据装载到指定数据库或文件中。;ETL的主要环节是数据抽取、数据转换与加工、数据装载。为了实现这些功能,各个ETL工具一般会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等,ETL采用的技术如下。;了解ETL;增量数据抽取中,常用的捕获变化数据的方法如下表所示。
;了解ETL;此外,除了数据库外,ETL抽取的数据还可能是文件,例如TXT文件、CSV文件、Excel文件和XML文件等。对于文件数据的抽取,一般是进行全量抽取,一次抽取前可保存文件的时间戳或计算文件的MD5校验码,下次抽取时进行比对,如果时间戳或计算文件的MD5校验码相同,那么可忽略本次抽取。
;(2)数据转换和加工
从数据源中抽取的数据,不一定完全满足业务要求,如数据格式不一致、数据输入错误、数据不完整等,因此有必要对抽取出的数据进行数据转换和加工。
ETL引擎中的数据转换和加工:ETL引擎中一般以组件化的方式实现数据转换。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等。这些组件可以任意组合,各组件之间通过数据总线共享数据。有些ETL工具还提供了脚本支持,读者可以以一种编程的方式定制数据的转换和加工操作。
;在数据库中进行数据加工:系数据库本身已经提供了强大的SQL和函数支持数据的加工,如在SQL查询语句中添加where条件进行过滤,查询重命名字段名与目的表进行映射,以及substr函数,case条件判断等。相比在ETL引擎中进行数据转换和加工,直接在SQL语句中进行转换和加工更加简单清晰,性能更高,对于SQL语句无法处理的可以交由ETL引擎处理。
;(3)数据装载
数据装载是将转换和加工后的数据装载到指定数据库或文件的过程,是ETL的最后步骤。装载数据的最佳方法取决于所执行操作的类型以及需要装入多少数据。当需要将数据装载至数据库时,有以下两种装载方式。
直接使用SQL语句进行Insert、Update、Delete操作。
采用批量装载方法,如BCP(导出)、BULK(导入)、关系数据库特有的批量装载工具或API。
多数情况下使用第一种方法,但针对大数据时,批量装载量的优化更好,效率更高。
;根据不同的供应商可将ETL工具分为两种,一种是数据库厂商自带的ETL工具,如Oracle warehouse builder(OWB)、Oracle Data Integrator(ODI)。另一种是第三方工具提供商,如Kettle、Informatica。开源世界中,也有很多的ETL工具,功能各异,强弱不一。;(1)Oracle Data Integrator
Oracle Data Integrator(ODI)前身是Sunopsis Active Integration Platform,在2006年底被Oracle收购,重新命名为Oracle Data Integrator,适用于ETL和数据集成的场景。ODI与Oracle原来的ETL工具OWB相比,ODI有一些显著的特点,如虽然ODI和OWB一样都是ELT架构,但是ODI比OWB支持更多的异构的数据源,ODI提供了call web service的机制,并且ODI的接口也可以暴露为web service,支持和SOA环境进行交互。ODI能够检测事件,一个事件可以触发ODI的一个接口流程,从而完成近乎实时的数据集成。;ODI主要功能有以下的特点。
使用CDC作为变更数据捕获的捕获方式。
代理支持并行处理和负载均衡。
完善的权限控制、版本管理功能。
支持数据质量检查,清洗和回收脏数据。
支持与JMS消息中间件集成。
您可能关注的文档
- ETL数据整合与处理 第2章 源数据获取(1) 优秀教学课件.pptx
- ETL数据整合与处理 第2章 源数据获取(2) 优秀教学课件.pptx
- ETL数据整合与处理 第3章 记录处理 (1) 优秀教学课件.pptx
- ETL数据整合与处理 第3章 记录处理 (2) 优秀教学课件.pptx
- ETL数据整合与处理 第4章 字段处理 (1) 优秀教学课件.pptx
- ETL数据整合与处理 第4章 字段处理 (2) 优秀教学课件.pptx
- ETL数据整合与处理 第5章 高级转换(1) 优秀教学课件.pptx
- ETL数据整合与处理 第5章 高级转换(2) 优秀教学课件.pptx
- ETL数据整合与处理 第6章 迁移和装载(1) 优秀教学课件.pptx
- ETL数据整合与处理 第6章 迁移和装载(2) 优秀教学课件.pptx
- 新启航英语二年级上册Unit5 Festival Period 2 课件.ppt
- 10.相亲相爱一家人 情境化教学课件-统编版2026道德与法治一年级下册.ppt
- 7星星点点 AI赋能课件 2026人美版美术一年级下册.ppt
- 3.2 世界的气候类型(教学课件) 2025中图版地理八年级上册.ppt
- 5.1 发达国家与发展中国家的差异(教学课件) 2025中图版地理八年级上册.ppt
- 13.快乐的儿童节 情境化教学课件-统编版2026道德与法治一年级下册.ppt
- 新启航英语二年级上册Unit5 Festival Period 1 课件.ppt
- 2025冀教版数学三年级上册全册教学课件.ppt
- 地理试卷云南名校联盟2026届高三上学期第三次联考(12.25-12.26).docx
- 2025~2026学年第一学期 高一年级英语试卷.docx
原创力文档

文档评论(0)