开源ETL系统研究与设计实现.doc

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
湖北工业大学领士学位论文 分类培 密级_ UDC 学拉代 ffj 10500 硕士学位论文 题目:开源ETL系统研究与设计实现 英目:Open Source ETL System Research and Design Realization 学位申请人姓名:张 强 申请学位学科专Jt:电力电子与电力传动 指导教师姓名:张洪涛教授 二00七年五月 摘 要 任何公司都有很多宝贵数据,它们需要在网络上从一个地方传送到其他地方, 这就需要对软件的数据格式进行必要的处理,如从一个商务软件格式到另一种格 式或数据仓库,然后进行分析。现在的问题是,各种数据处于异质系统~例如, 由各种CRM(客户关系,Customer Relationship Management)系统产生的数据,可 能用不同方式定义一个客户,但需要一个系统平台来统一确定其在后端会计系统 是同一客户《为了解决这个问题,利用萃取、改造和装载(ETL, Extract, Transform and Load)软件,即阅读资料、统一格式、清洁源数据,并写入它的目标开发存储 库。 从多个异构数据源获取业务数据,进行数据清洗和转换后,存储到数据仓库的 过程,称为ETL过程。提取可以通过Java的数据库提取连接技术实现,也可以通 过微软公司的并放数据库互连技术获取。经过提取、数据转换或修改、依靠所涉 及的具体业务逻辑,以便它能够被送到目标存储库.有多种方式进行改造,涉及的 作业各有不同。数据可能仅仅需要重新格式化,但大多数的ETL也涉及清洗作业, 以消除备份和执行数据一致性。ETL软件的部分功能是用于检查个别数据域,并且 运用规则不断转换源数据到目标存储库和用程序所要求的格式。另外,ETL过程 可以涉及的领域如下:标准化域名和地址域、核实电话号码或其他领域、扩展带 有附加字段的记录,其中附加字段包括人口统计数据或来自其它系统的数据。 本文以项目踏蓝(TOS,Talend Open Studio)为支撑,主要研究ETL理论及其 改进,并就踏蓝项目需求进行ETL系统构架设计,最后测试并达到预期。开源ETL 系统解决方案对于企业决策过程整合,(TOS)踏蓝的解决方案是收集、处理和合并 公司内部的各种各样不同系统内的数据,并且将他们传输至中央数据库(数据中 心)。这样,数据能够很容易被访问;有效地被处理,以便更深层次的分析和报 告:或者被再次输入其它运用处理程序。ETL—K于决策过程的中心——允许公 司能够根据其需要,清除、标准化以及转化他们的数据。 关键词:踏蓝(TOS) , ETL (萃取、改造和装载),数据存储库, Abstract Con^anies know they have valuable data lying around throughout their networks that needs to be moved from one place to another~such as from one business application to another or to a data warehouse for analysis. The only problem is that the all sorts of heterogeneous systems, and therefore in aSl sorts of formats. For CRM system may define a customer in one way,while a back-end accounting system may define the same customer differently. To solve the problem, i use cxtract, transform and load (ETL) software, which includes reading data cleaning it up and formacdng it imifomily, and then writing it to the target repository to be exploited. The process is from all sorts of heterogeneous data source extract business data, transform and cleanse’ load to data warehouse. This process is called ETL (Extraction, Transformation^ and Load). Extractipn can be done via Java Database Connecti

文档评论(0)

小教资源库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档