ETL解决方案资料.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETL流程调度设计 ETL流程调度总体结构 ETL(Extract Transform Load,简称ETL)是将数据从源系统抽取、清洗转换、并加载到数据仓库的实现过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。 ETL是经营分析项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到经营分析项目的成败。ETL也是一个长期的过程,因此只有对ETL总体架构和模型进行优化设计,才能使ETL运行效率更高,为项目后期开发提供准确的数据。 从业务和竞争力角度,可以用两个词来概括对ETL的要求:速度和灵活。ETL需要迅速响应业务要求,并部署实施。同时,ETL需要可灵活配置、可靠和安全。因此需要不断扩展现有ETL能力,同时还能提供像Web服务这样的新技术。目前先进的SOA思想和数据封装技术成为了ETL的基础,面向服务的体系结构SOA(Service-Orentied Architecture,简称SOA)是一个组件模型,它提供一种通用接口将各种实现独立功能的组件以Web服务的方式集成在一起的解决方案。采用面向服务体系结构增加了软件的复用性和系统集成的灵活性,降低了系统维护成本。通过SOA,完成ETL任务的方式是执行一系列“服务”以及具有良好定义的与服务的交互方式的作业,还有良好定义的交互取消方式。 ELT工具将各个子功能处理模块为采用Webservice技术和标准数据格式封装,实现ETL标准服务组件,所谓的服务是一种实体,它能够完成标准的业务功能,如:FTP、数据抽取、数据清洗等。通过清晰的定义和松散的耦合提高灵活性。服务根据 SOA 原则利用现有的中间件实现交互。充分利用新的开放标准以及 XML 数据定义(Web Services――Web 服务),快速融合ETL解决方案中。通过统一ETL调度引擎,实现ETL处理过程中,各处理流程的统一调度。 实现SOA标准的数据总线,实现各环节数据有效流转,完成各个处理流程环节的灵活组装,从而实现对各种数据接口,转换规则,数据校验规则以及多种数据入库处理方式等的通用性组装处理。解决应用系统之间数据不一致、数出多头、数据质量、各应用系统内数据重复转换加工等问题,实现信息资源价值的最大化。 整体功能结构如下: E E T L 前 台 界 面 Webservice/ftp 布局管理器 BPM管理器 属性管理器 统计分析管理 控制关系管理 数据校验管理 Etl中间层逻辑处理 接口API Etl中间层 接口层 Dwr Xml数据 对象 消息类 日志类 数据类 控制类 接口处理 中间层处理 应用处理层 展现层 统计监控 控制 总体界面 BPMN 元数据类 ETL底层 BOSS 客服 网管 大客户 DSMP 彩铃平台 外部数据 在整个经营分析系统中,涉及各个层面,各个环节、以及大批量数据的处理过程,每个环节所关注点不同,且存在一定的调度逻辑。ETL流程调度系统就是负责整个数据处理过程,保证数据正确、可靠、快速地处理。 当新增数据源、新增转换需求、新增接口表、新增库内处理逻辑等需求时,只需通过配置即能快速解决,使技术人员的精力主要集中在业务逻辑处理上,而无需在流程调度细节上过多关注。 为简化ETL的配置管理,降低系统维护开销,实现基于WEB的业务流程管理(BPM)。引入对象管理组织(Object Management Group OMG)标准: BPMN,即Business Process Modeling Notation,业务流程建模符号,实现对ETL的可视化业务流程定制。采用100%的纯Java技术,跨多种浏览器平台,实现可视化的ETL流程配置,监控,处理结果查询等一系列的管理监控功能。ETL流程定制界面: ETL底层功能模块 包含所有ETL数据处理过程的子功能模块,以实现对数据的抽取,传输,转换,校验,清洗,入库,上传等基础功能。并通过WebService技术封装为标准组件,以提供给ETL调度引擎作为Job进行调度,从而完成不同数据来源接口的不同处理流程。并在一定程度上屏蔽异构系统的底层功能,从而在整体上提高ETL在异构系统间的可移植性。 ETL中间逻辑层 以ETL调度引擎为核心,以SOA总线为基础,通过引入Job的概念,屏蔽ETL处理过程中数据多样性和复杂性,并能灵活扩展不同的数据处理流程,使不同的数据处理流程的定制和配置成为可能。其调度的策略可以包括以下几种类型: 前导Job驱动:ETL过程中各个处理环节需按一定次序进行,前导Job表示ETL流程中先要进行处理的Job,Job的前导Job可以有多个。 时间驱动:当到达某个时间点时,这个时间点可以是时间周期,也

文档评论(0)

yurixiang1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档