- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据质量研究ETL框架设计及实现
基于数据质量研究ETL框架设计及实现1 数据质量分析的概念
数据质量分析主要是由域分析和过滤器分析两部分组成。以下将分别给以详细的说明。
1.1 域分析
数据质量分析中的域分析就是用来按列分析数据库表,来得出数据的概况信息。其中,域分析主要包括如下内容:一是数据类别分析,所谓的数据类别分析就是用来判断相关数据是否属于标识量、开关量、枚举量、时间、数量、文本等;二是针对数值类型数据的统计分析,主要有频率分析、方差分析以及百分比分析等;三是针对字符类型数据格式的分析,主要是进行模式匹配。数据质量分析中的域分析可以很好的帮助用对数据环境进行充分的了解,以便对数据流进行有效的质量评估和管理。
1.2 过滤器分析
数据质量分析中的过滤器由若干基本规则的逻辑所组成,目前数据质量分析中的过滤器定义的主要规则包括:一是包含规则(CONTAINS);二是等于规则(EQUALS);三是存在规则(EXISTS)。除此之外,过滤器定义的规则还有范围规则、正则表达式规则、频率规则、类型规则以及唯一规则等。通过这些基本规则的组合可以生成复杂的业务规则,进而通过这些复杂的业务规则来对数据进行评价,常见的评价结果包括:符合规则的记录数、规则明细、总记录数以及正确率等。
2 认识ETL
2.1 ETL概述
1)ETL的概念。ETL是英文Extraction-Transformation-Loading三个首字母的缩写,中文即为数据的提取、转换和加载。ETL在做数据仓库系统时发挥着至关重要的作用。相对于传统数据库技术,ETL并不是面向数学理论基础的,它主要是面向实际工程的应用。从工程应用的角度来看,ETL就是将要加载处理的数据按照一定的物理数据模型的要求来进行相应的处理操作的,ETL的数据处理过程与工程人员的数据处理经验直接相关,由于ETL处理数据部分的工作在很大程度上决定数据仓库中数据的质量,而且对联机分析处理和数据挖掘结果的质量具有一定的决定作用。
2)ETL的数据处理特点。笔者总结认为,ETL的数据处理主要有如下两个方面的特点:① ETL的数据处理是同步的,而且是按照固定周期运行的。② 一般在ETL数据处理过程中所处理的数据量比较大,为了提高数据的处理效率,都会将数据流动的过程拆分成E、T和L即数据的提取、转换和加载三个过程来进行处理。
2.2 ETL体系结构及其本质
1)ETL的体系结构。一般而言,主流ETL产品框架的体系结构主要有目标数据库、源数据、抽取服务器、Web服务器以及配置工具等组成部分。ETL从源系统中提取数据,转换数据为一个标准的格式,并加载数据到目标数据存储区。ETL系统一般不会单独作为一个项目来做,大多与数据仓库、决策支持等系统一起作为支持系统完成。
2)ETL的本质。如上所述,ETL的过程实际上就是数据流动的过程,其中,数据的清洗、抽取、转换和装载一般是根据用户的实际需要,可以以串行或并行的方式进行操作。而T过程即数据的转换过程作为ETL的核心,一般都是以数据的抽取和装载过程为输入和输出的,也就是说,ETL的其他数据处理过程是以数据的转换过程为前提的。另外,ETL的数据处理过程一般都是以批量为单位进行操作的,因此,ETL的数据处理多采用的是批量数据处理工具,比如常见的Oracle、SQL Loader
以及DB2的autoloader等都是基于ETL的批量数据处理工具。
2.3 ETL的主要功能和特点
1)ETL的主要功能。① 数据集成配置。ETL的数据集成配置功能模块能够为用户提供一个图形用户界面,可以让用户能够通过界面的交互操作,比较容易地实现数据集成的流程、规则的定义;同时ETL的数据集成配置功能提供相应的解析功能,进而可以将配置规则进行解析,在完成规则解析的基础上完成对数据的集成处理操作。② 数据集成服务。ETL的数据集成服务可以为用户提供相应的解析功能,也就是说,用户可以根据数据集成服务模块实现对集成规则的解析服务,然后由相关配置设备来读取这些被解析的规则后生成集成任务,最后在后台由相关设备完成数据的集成。
2)ETL的特点。① 易用性。现在有很多成熟的数据处理工具都提供ETL功能,譬如,常用的powermart以及datastage等数据处理工具。从应用角度来看,ETL的数据处理过程非常简洁,这些支持ETL技术的相关数据处理工具的应用,给数据仓库工程带来了很大的方便,进而大大的提高了工程人员的工作效率。② 高效性。ETL在执行任务时,可以有效保证抽取任务的正常进行。而且基于ETL的工具为用户提供了图形化界面,用户使用这些数据处理工具能够非常快速地构建一个job来处理某个数据,进而可以提高开发效率。③ 可靠性。ETL在进行数据的抽取时,可以保证源数据到目标数据的
原创力文档


文档评论(0)