kettle使用手册分析和总结.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

打开程序,点击

spoon.bat

其实对于简单的数据库数据的抽取,基本只需要转换

其实对于简单的数据库数据的抽取,基本只需要转换(.kt格r式)和作业(.kjb格式)这两种东

西。下面就是建立一个转换的步骤:

a点击文件--新建--转换。

b在左侧的树状列表中选“主对象树”,新建DB连接(参照第4点)。

c在核心对象--输入这个地方拖出一个表输入,在“输出”目录下拖出“表输出”,按住

shif,t从一个对象拖到另一个对象可进行连线。

基本作业由开始,转换,成功3步骤组成。步骤之间使用shift+左键连线。

‘1’代表无条件执行;

‘2’代表上一步执行完成后,再执行下一步;

‘3’代表不执行,左击连接线使其生效(绿色)或失效(灰色)。

打开具体步骤中的转换流程,点击‘Transformation’跳转至相应具体转换流程,

编辑此转换具体路径,双击转换,弹出窗口,‘1’为相对路径,点击‘2’选择具体Visit.ktr转换,为绝对路径。

建立数据库连接,输入相应信息测试,成功即可

图4

转换具体设置,如图4,‘表输出’至‘文本文件输出’流程跳接线为错误处理步骤,当输出格式不能满足表输出的目的表结构类型时,将会将记录输出到‘文本文件输出’

中的记录中。

双击‘表输入’,输入相应的SSQL语句,选择配置数据库连接,或新增,预览查询生成的结果(如果数据库配置中使用变量获取,此处预览生成错误)。

双击‘表输出’,选择数据库连接,‘浏览’选择相应目标表,(此处‘使用批量插入’勾选去除,目的是在错误处理步骤中无法使用批量处理,可能是插件兼容问题)

表输出插件定义

Target

TargetSchema:目标模式。要写数据的表的Schema的名称。允许表明中包含“。”对数据源来说是很重要的

目标表:要写数据的表名。

c)

c)

提交记录数量:在数据表中用事物插入行。如果n比0大,每n行提交一次连接。否则不使用

事务,速度会慢一些。

d)

e)

裁剪表:在第一行数据插入之前裁剪表。

忽略插入错误:使Kettle忽略比如违反主键约束之类的插入错误,最多20个警告将被日志记录。

在批量插入的时候这个功能不可用。

f) 使用批量插入:这个选项速度快,默认被选上。

g)

h)

表分区数据:使用这个选项可以在多个表之间拆分数据。例如把数据放到表s1、s2、s3中来代

替直接插入数据到表s中。

例如:createorreplaceviewsalesas

1.

1.

2.

3.

Select*fromsales_200501

Unionall

Select*fromsales_200502

i)

i)

表名定义在一个字段里:使用此选项可以拆分数据到一个或者多个表里,目标表名可以用你指

定的字段来定义。例如:如果你想存储客户性别数据,这些数据可能会存储到表M和表F里面。这个选项可以阻止这些字段插入到相应的表里。

j)

k)

返回一个自动产生的关键字:往表中插入行时,是否产生一个关键字。

自动产生关键字的字段名称:指定包含关键字的输出字段的字段名称。

执行任务,

Windos:bat批处理文件,

Linux:sh批处理文件,

Kitchen——

Kitchen——作业执行器

是一个作业执行引擎,用来执行作业。这是一个命令行执行工具,没啥可讲的,

就把它的参数说明列一下。

就把它的参数说明列一下。

-rep

-rep

:Repositoryname 任务包所在存储名

-user

-user

:Repositoryusername 执行人

-pass

-pass

:Repositorypassword 执行人密码

-job

-job

:Thenameofthejobtolaunch任务包名称

-dir

-dir

:Thedirectory(dontforgettheleading/or\)

-file

-file

:Thefilename(JobXML)tolaunch

-level

-level

:Thelogginglevel(Basic,Detailed,Debug,Rowlevel,Error,Nothing)指定日志级别

-log

-log

:Theloggingfiletowriteto指定日志文件

-listdir

-listdir:Listthedirectoriesintherepository列出指定存储中的目录结构。

-listjobs

-listjobs:Listthejobsinthespecifieddirectory列出指定

文档评论(0)

balizuoan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档