- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据集成ETL工具的设计与构建
数据集成(ETL)工具的设计与构建
经过几十年来快速不断的IT创新造就了大批综合性的、分布式的且不断变化的应用系统,这些系统跨越了从大型机到Web的多种平台,因此不同系统的互连成了亟待解决的问题。如何充分利用已有的技术及应用资源,企业应用集成(EAI)
图 2 ETL工具总体架构
如图2所示,ETL工具主要包括配置工具和抽取服务两个部分内容。
1、配置工具
配置工具的开发工具选择E++。其主要实现以下功能:
●数据集成工具的抽取任务规则配置
将提供一个GUI界面的配置工具,实现对抽取任务的配置。用户可以通过界面的互动,比较容易实现数据集成工具抽取规则的配置。
●抽取任务规则解析
对配置后的抽取规则进行解析,服务读取这些规则,生成抽取任务。
根据以下流程进行主要的设计工作:
●数据集成(抽取):提供GUI界面由用户录入源数据源、目的数据源、抽取规则。
●数据源定义:实现数据源信息的录入,并对数据源进行连接测试。
●抽取方案定义:配置数据抽取的信息及规则。
●抽取任务定义:在数据抽取方案定义完成后,定义数据抽取方案的执行规则。抽取执行定义为“执行任务”,每个“执行任务”包含有一个或者多个抽取方案及子任务。每个“执行任务”具有相同的执行规则,方案执行也具有一定的顺序。
●资源共享:解决异地抽取的问题,对某些表的结构进行共享。
2、抽取服务
抽取服务的开发工具选择JAVA。主要实现以下功能:
●抽取服务
抽取服务读取抽取配置规则将包含:库到库、表到表、多表到单表、文件到表、表到文件的各种规则抽取。根据抽取规则执行抽取任务,实现数据抽取。
抽取信息进行数据共享
集成工具将对配置好的抽取信息进行发布,让其它的集成工具进行共享。并要对集成工具实现抽取的数据进行互通。
根据以下流程进行主要的设计工作:
●系统参数定义
系统参数在“系统配置参数表”中定义,包括参数名、参数值及说明等。
数据集成工具系统参数定义,如表1:
表1 参数定义表
参数名 参数值 注释 BD_BATCH_COUNT 1000 数据集成工具数据每批数据大小 MAX_LINE_PER_PAGE 10 每页显示最大的行数 MAX_RESULTSET_COUNT 500 查询时返回的最大行数 ●系统配置接口引擎
数据集成工具的配置工具为C++开发的,同时又要做到数据集成工具可以支持多种平台。所以数据集成工具服务端和配置工具将可能分布在两台机子上,数据集成工具的配置文件又必须和服务端一起部署,配置工具对抽取配置文件的读、写就调用系统的配置接口引擎进行操作。
●系统初始化
在数据集成工具服务器启动时,必须事先进行初始化。提高程序的整体运行效率,系统初始化包含3个部分,分别对通用信息初始化、Xml配置文件初始化、抽取调度器初始化。
●抽取器配置规则信息解析
配置工具完成配置后,系统启动将对配置完成的信息读入,解析出抽取规则。解析抽取规则是在抽取方案定义完成后,对抽取方案的规则进行解析。抽取器解析配置信息必须在抽取配置方案定义完成后进行解析。
●抽取规则定义
在实际抽取中必须满足多种规则进行定义,然后抽取器读取解析规则。启动抽取任务实现抽取。抽取方案根据已定义好的模型定义,抽取定义规则主要包括:多表到单表抽取;组合抽取;表到文件;文件到表;与数据交换平台紧耦合。抽取数据规则定义后,可以设定是否建立目标表,目标表也可以由用户自行建立。
●抽取任务查看控制
抽取任务启动后,用户可以登录到抽取器服务器进行查看抽取任务的运行情况。
●数据共享信息接口
数据共享信息接口,可以共享在本抽取器中所有配置出来的数据对象。其它抽取器在取得统一的通信录后,根据通信录任意选择一个网点抽取器,下载这个网点抽取器的数据对象列表。得到数据对象列表后,选择合意的数据对象对这个抽取服务器发出请求,抽取服务器在接收到请求数据对象后,通过数据共享信息接口发布出这个数据对象的详细信息和数据,但考虑到数据的庞大,对于每次请求会限制源数据量,如每次只请求100~1000条,得到数据处理后继续请求下一批的数据。
●抽取器统一通讯录分发
抽取器进行数据共享将统一通讯地址,通讯地址记录在这个中心抽取服务器下的所有节点抽取服务器的地址。对于这些地址由中心抽取服务器统一收集,发布给属于这个中心服务器的所有节点中心服务器。
●抽取器抽取核心服务
抽取器核心服务将分为抽取和填充模块,抽取器抽取模块根据抽取规则定义,解析抽取源对象和抽取目标对象,组织抽取源匹配表达式。完成抽取源数据流。填充模块将完成对根据抽取规则抽取到的源数据,按照设定填充到目标表中。
三、目前国内外类似工具的技术发展比较
目前主要是国外五大公司已设计出类似的数据库工具,其功能及优缺点等比较表2:
表2 类似的数据库比较表
公司 产品名称 支持数据库系统 优点 缺点
文档评论(0)