完整版本kettle使用规范总结修改版本.docxVIP

完整版本kettle使用规范总结修改版本.docx

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Kettle 使用规范 1、Kettle 概念 Kettle 是一款国外开源的 ETL工具,纯 java 编写,可以在 Window 、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle 这个 ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 Kettle 中有两种脚本文件, transformation 和 job ,transformation 完成针对数据的基础转换, job 则完成整个工作流的控制。 2、下载和部署 下载 kettle 压缩包,因 kettle 为绿色软件,解压缩到任意本地路径即可 3、Kettle 环境配置 3.1 安装 JDK(略) 3.2 测试 JDK安装成功(略) 3.3 kettle 的 java环境变量 以 win7 为例:【开始】 -【计算机】 -【属性】 -【高级系统属性】 -【高级】 - 【环境变量】 -【新建】,创建用户变量。变量名输入: PENTAHO_JAVA_HOME;变量值输入刚才 jdk 的安装路径。 3.4 运行 Kettle Windows 下找到 $KETTLE_HOME/spoon.dat,双击运行 欢迎界面如下图所示: 4、KETTLE组件介绍与使用 4.1 Kettle 使用 Kettle  提供了资源库的方式来整合所有的工作  ,即所建立的  transformation  和  job  及其运行日 志将被保存在数据库中,否则将以文件的形式存储在本地。 1)创建一个新的 transformation ,点击保存到本地路径,例如保存到 件名为 Trans, kettle 默认 transformation 文件保存后后缀名为 ktr ;  D:/etltest  下,保存文 2)创建一个新的 job ,点击保存到本地路径,例如保存到 kettle 默认 job 文件保存后后缀名为 kjb ;  D:/etltest  下,保存文件名为  Job, 4.2 组件树介绍 4.2.1Transformation 的主对象树和核心对象分别如下图: Transformation 中的节点介绍如下: Main Tree :菜单列出的是一个 transformation 中基本的属性,可以通过各个节点来查看。 DB 连接 :显示当前  transformation  中的数据库连接,每一个  transformation  的数据库连接都 需要单独配置。 Steps:一个 transformation 中应用到的环节列表 Hops:一个 transformation 中应用到的节点连接列表 核心对象 菜单列出的是 transformation 中可以调用的环节列表,可以通过鼠标拖动的方式对 环节进行添加: Input :输入环节 Output :输出环节 Lookup :查询环节 Transform :转化环节 Joins:连接环节 Scripting :脚本环节 4.2.2 Job的主对象树和核心对象分别如下图: Main Tree 菜单列出的是一个 Job 中基本的属性,可以通过各个节点来查看。 DB 连接 :显示当前 Job 中的数据库连接,每一个 Job entries/ 作业项目 :一个 Job 中引用的环节列表  Job 的数据库连接都需要单独配置。 核心对象 菜单列出的是  Job 中可以调用的环节列表,  可以通过鼠标拖动的方式对环节进行添 加。 每一个环节可以通过鼠标拖动来将环节添加到主窗口中。 并可通过 shift+ 鼠标拖动,实现环节之间的连接。 4.3 使用举例 1 4.3.1 建立 Transformation 选中列表中的的“表输入” 、“表输出”、“插入 / 更新”,拖拽到右侧工作区。鼠标选中节点键盘按 shift 键,拖拽即可连线。下图是一个转换,有两个动作,一是直接从数据源表同 步数据到目标表,一是检查源表的插入和更新,同步到目标表。 黑色线为生效,灰色线为失效,节点和连接可双击进行编辑。 可预览数据是否正确。 双击编辑表输出动作。 操作的数据库名 要获取的字段设置如下所示: 点击“ Enter field mapping/ 输入字段映射”进行字段选择。 选择要用的字段后点确定,注意字段的约束条件。 编辑好后点击上面的执行即可。 左侧参数暂不说明,执行完成后可以观看下方的日志。 双击编辑“插入 / 更新”动作。 然后点击运行。 执行前, 在源库里加条新纪录。 磁盘地址 C:\etl2.ktr

文档评论(0)

131****8546 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档