kettle操作文档解读.doc

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
kettle操作文档解读

Kettle操作文档 1.Kettle介绍。 2 2. Kettle下载。 2 3.使用规范和注意事项。 2 3.1.配置数据库的全局变量。 2 3.2.文件命名规范(不要用汉字)。 2 3.3.文件存放位置。 3 3.4.配置启动任务文件。 3 3.5.注意事项。 3 4. Kettle部署使用。 4 4.1.启动kettle。 4 4.2.创建转换文件。 5 4.2.1.使用标识字段实现新增数据。 5 4.2.2.使用时间戳实现新增或修改数据。 10 4.2.3.使用时间比较实现新增或修改数据。 13 4.2.4.使用对某一数据值比较实现新增或修改数据。 16 4.3.创建任务文件。 18 4.4.命令行启动任务。 19 1.Kettle介绍。 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于政府部门来说,经常会遇到大数据量的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少。 Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定,提供了图形化界面,使用很方便。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 Kettle下载。 Kettle可以在40/bbs/网站下载kettle压缩包,因kettle为绿色软件,解压即可使用。这个压缩包,公司加了一些功能,跟官网下载的不太一样,建议使用公司论坛上的压缩包。 资料网站:/。 注:解压路径尽量不要有中文。 .kettle:存放kettle的一些环境变量信息,资源库的信息。 jre6:存放java运行库文件(1.6版本)。 launcher:存放启动的文件以及启动的配置信息。 lib:存放kettle的库文件。 libext:存放用到的外部库文件。 libswt:存放用到的界面库文件。 plugins:存放插件文件。 resources:存放编写的转换和任务文件,以及日志和任务 配置信息。 ui:存放用到的的图片和配置信息。 Kitchen.bat:任务文件执行器(命令行模式)。 Pan.bat:转换文件执行器(命令行模式)。 set-pentaho-env.bat:设置kettle运行的环境变量。 Spoon.bat:打开设计工具(界面方式)。 Spoon.ico,spoon.png:工具的图标。 start.bat:启动存放在resources目录下的任务配置文件。 说明.txt:使用的规范和注意事项。 3.使用规范和注意事项。 3.1.配置数据库的全局变量。 在.kettle目录下的perties文件配置数据库全局变量。 属性:HostName,DatabaseName,PortNumber,UserName,Password。 规则:地市名+数据库名+属性名=值,且命名时第一个单词以小写字母作为开头,后面的单词则用大写字母开头。 如:昆山的ebcmks数据库,配置如下: ksEbcmksHostName= ksEbcmksDatabaseName=ebcmks ksEbcmksPortNumber=1433 ksEbcmksUserName=sa ksEbcmksPassword=powerdata 在工具中使用方法为:${ksEbcmksHostName}。 3.2.文件命名规范(不要用汉字)。 转换文件用操作数据库的表名(大写中文首字母)。 任务文件用项目名。 配置启动任务文件用项目名。 日志文件用“kettlelog_项目名.log”。 3.3.文件存放位置。 文件统一放到resources目录下。 存放规则:项目名目录-(transformations目录,jobs目录),config目录,logs目录; 其中transformations目录主要存放转换文件,jobs目录存放任务文件,config目录存放配置启动任务文件(需要执行的任务文件配置信息)。 如昆山:项目名目录为:ks,转换文件目录:transformations,任务文件目录:jobs,配置文件目录:config,日志文件目录:logs。 3.4.配置启动任务文件。 配置文件统一放到:项目名目录-config目录下。 文件后缀名为:bat(批处理文件)。 编写规则:Kitchen.bat -file=%cd%\resources\任务文件(从项目名目录开始) -level=日志等

文档评论(0)

22ffbqq + 关注
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档