第十一章 kettle操作手册.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
什么Kettle? Kettle是一个开源的ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)项目,项目名很有意思,水壶。按项目负责人Matt的说法:把各种数据放到一个壶里,然后呢,以一种你希望的格式流出。Kettle大块:Spoon——转换(transform/job)设计工具 (GUI方式)Kitchen——工作(job)执行器 (命令行方式) ?????Span——转换(trasform)执行器 (命令行方式)Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高 效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 Kettle简单例子 下载及安装Kettle 下载地址:/projects/pentaho/files 现在最新的版本是3.6,为了统一版本,建议下载3.2,即下载这个文件pdi-ce-3.2.0-stable.zip。 解压下载下来的文件,把它放在D:\下面。在D:\data-integration文件夹里,我们就可以看到Kettle的启动文件Kettle.exe或Spoon.bat。 2.2 启动Kettle 点击D:\data-integration\下面的Kettle.exe或Spoon.bat,过一会儿,就会出现Kettle的欢迎界面: 稍等几秒,就会出现Kettle的主界面: 2.3 创建kettle后台管理 点击【新建】,新建资源库信息 这里 我们选择KETTLE 后台管理数据库的类型,以及配置JDBC 设置完成后,点击【创建或更新】,将会在指定的数据库里面新建KETTLE的后台管理数据表。再设置 【名称】,点击【确定】。 回到登陆界面,选择新建的【资源库】,输入 用户账号密码(默认账号:admin,密码:admin) 进入KTETTLE 的开发界面 2.4 kettle说明 主对象树:转换(任务),作业(JOB) 核心对象:主对象中 可用的组件 2.5 值映射 组件 使用的字段名:源字段 目标字段名:目标字段 源值:源数据的值 目标值:替换的值 注:最好先将源值去空格,再进行替换 2.6 增加常量 组件 名称:映射字段 类型:字段类型 格式:数据格式 长度: 值:常量的值 2.7计算器 组件 新字段:映射字段 计算:计算类型 字段A,B,C:需计算的字段 值类型:数据的类型 2.8获取系统信息 组件 名称:显示的名称 类型:显示的类型(系统时间,IP,指令等等) 2.9增加序列 组件 值的名称:映射值的名称 起始值:序列的初始值 增加值:设置增加的值 最大值:设置最大值 2.10 表输出 组件 数据库连接:设置数据库 目标表:设置目标的表 提交记录数量:设置提交数量 忽略插入错误:跳过错误,继续执行 指定库字段: 数据库字段:选择插入的字段 2.11 多路选择(Switch/Case) 组件 更多路选择的字段:设置Switch的字段 分支值的数据类型:设置值的类型 分支值: 值:设置case的值 目标步骤:跳过的操作步骤 缺省的目标步骤:未通过的操作步骤 2.12 Null if... 组件 名称:选择替换的字段 需要转换成NULL的值:需要转换成NULL的值 2.12 执行SQL脚本 组件 数据库连接:选择数据库 SQL script :输入要执行的SQL语句 参数:设置要替换的参数字段 2.13 Modified Java Script Value 组件 Java Script:脚本的输入 :输入字段 :输出字段 字段名称:定义的字段名 改成为:新的字段名 类型:字段类型 Replace Value:是否替换的值 2.14 合并记录 组件 旧数据源:输入数据源 新数据源:输入数据源 匹配关键字段:匹配关键字段 数据字段:数据字段 2.15 记录关联 (笛卡尔输出) 组件 条件:输入关联的条件 2.16 Merge Join 组件 第一个步骤:第一个操作的步骤 第二个步骤:第二个操作的步骤 步骤选择的字段:步骤关联的字段 2.17 行转列 组件 关键字:选择表的关键字 分组字段:分组的字段 目标字段:选择目标在字段 VALUE:值字段名称 关键字值:关键字值 类型:数据类型 2.18 生成随机值 组件 名称:新生成字段名 类型:随机数的类型 2.19 去除重复行 组件 字段名称:关键字的字段 忽略大小写:是否忽略大小写 注意:去掉重复行 需先排序 2.20 插入 / 更新 组件 数据库连接:选择数据库 目标表:选择目标表 不执行任何更新:是否执行更新操作 查询的关键字:关键字 更新字段:选择

文档评论(0)

xuefei111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档