Talend的介绍及其基本使用.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Talend的初步应用;Talend的认识;Talend是什么?;Talend 是一种ETL工具 ETL是Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。主要是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。 Talend,中文名拓蓝,是一家专业的开源集成软件公司.Talend是市场上唯一提供集数据集成,数据分析以及清洗,主数据管理,应用集成为一体的软件提供商。 Talend连续4年上榜gartner公司在数据集成领域年度魔力象限报告,同时上榜的有全球IT巨头IBM,Oracle,SAP等等,talend是其中唯一一家开源公司。 全世界 xxx 的人都下载并使用着 Talend Open Studio 的集成功能,数据质量功能,MDM 功能,ESB 功能。 Talend Open Studio for Integration 这款开源工具可执行数据仓库到数据库之间的数据同步,提供基于 Eclipse RCP 的图形操作界面。目前我们现在主要应用的就是这一款开源工具的数据集成。 ;;为Talend创建工作空间 ;1①在Talend安装目录下,双击 图标进入Talend连接页面。如下图所示: ;③进入如下页面,可以选择或者更改工作空间所放置的目录:;④进入如下图所示,点击Start now! 进入作业页面。;⑤进入后会看到大体的软件布局如下图所示:最左边主要是目录;中间大的区域是主要作业设计区和job运行区;最右边是画板存放了所有组件,当你打开作业的时候会出现;中下部分是组件的一些属性设置。;认识Talend的基本组件 ;打开工具后,在中间部分你也会发现Talend给我们介绍了4个基本的步骤:; 首先右击最左边库中的作业设计,点击创建作业如下图所示,作业名字必填,其余可以选填。完成既创建一个空白作业。;;点击 下一步 ,如右图所示:;填写连接的数据库信息: “DB类型”中选择数据库类型,这里选择“oracle with SID“。 “登陆”中写入登陆此数据库的用户名。 “密码”中写入登陆密码。 “服务器”中填写数据库服务器IP地址。 “sid”中填入登陆的数据库的名称。 填写完成后,点击检查按钮,检查是否连接成功。如果成功会返回信息:; 创建完连接后我们便可以使用这个连接进行作业设计抽取数??工作。 前面例子中 我们创建了一个本地的oracle数据库system用户的连接。 我们也可以创建别数据库连接,在上图连接属性中的“数据库版本”一栏中可以选择不同的数据库类型。 ②输入,输入组件 所有的包含input和output名称的组件都是输入输出组件。并不是所用到的输入输出组件只是一种,根据数据库类型不同,组件也不相同。 例如:oracle数据库的输入输出组件: tOracleInput、tOracleOutput SQLServer的输入输出组件: mysql的输入输出组件: ;输入组件主要是进行抽取数据使用设置源数据表,然后通过输出组件设置目标表,连接上即可传送数据。 ③tMap组件 这也是一个很重要的组件,当我们在进行两个表的数据传输时,如果两个表的字段名字不一样,就需要这个组件进行连接,指明对应目标数据表和源数据表这两个表的字段。;创建联系,进行作业设计 以oracle为例: 在作业设计中新建一个作业,假如作业要求如下:把本地oracle数据库中t表的数据抽取到t1表中。t表数据如下9条数据,t1表为空表结构一样:;然后我们可以把需要的组件在画板中找到并且点击拖到空白作业中。或者直接拖已经配置好的数据源选择组件(不需要再配置数据源)。 双击input组件,设置信息如下:(属性类型选择储存库,可以得到配置好的数据库信息,如果不选择可以自己填写以下信息,在查询中写sql语句查出你所抽取的信息,然后用双引号引起来。);点击属性中的Guess schema得到字段信息,如果类型不对可以修改。;双击output组件,配置目标数据表(即t1)的信息,主要是在表中填写目标表名字。表操作因为t1表已经存在可以选择无操作,如果没有t1表我们可以选择创建表,等还有其他操作。数据操作是插入,根据需要也可以选择其他操作如更新等。;然后进行两个表的连接,右击input组件选择行-主线 到output组件。然后output组件的属性中选择:同步列。获取input的字段信息。;然后点击运行中的运行按钮,即可运行作业进行数据抽取。完成作业,我们可以看到9条数据已经抽取过去。当然这里的数据结构是一样的字段也是一样的,如果不同我们还需要tMap

文档评论(0)

wxc6688 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档