ETL工具kettle.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETL工具kettle

概览Kettle也叫PDI(全称是Pentaho Data Integeration),是一款开源的ETL工具,项目开始于2003年,2006年加入了开源的 BI 组织 Pentaho, 正式命名为PDI。官方网站:/术语Transformation转换步骤,可以理解为将一个或者多个不同的数据源组装成一条数据流水线。然后最终输出到某一个地方,文件或者数据库等。Job作业,可以调度设计好的转换,也可以执行一些文件处理(比较,删除等),还可以ftp上传,下载文件,发送邮件,执行shell命令等,Hop连接转换步骤或者连接Job(实际上就是执行顺序)的连线Transformation hop:主要表示数据的流向。从输入,过滤等转换操作,到输出。Job hop:可设置执行条件:无条件执行当上一个Job执行结果为true时执行当上一个Job执行结果为false时执行Kettle,etl设计及运行Kettle整体结构图Kettle整体结构图转换设计样例图绿色线条为hop,流水线转换设计样例运行方式使用 java web start 方式运行的配置方法命令行方式Windows下执行kitchen.bat,多个参数之间以“/”分隔,Key和value以”:”分隔例如:kitchen.bat /file:F:\samples\demo-table2table.ktr /level:Basic /log:test123.log/file:指定转换文件的路径/level:执行日志执行级别/log: 执行日志文件路径Linux下执行kitchen.sh,多个参数之间以“-”分隔,Key和value以”=”分隔kitchen.sh -file=/home/updateWarehouse.kjb -level=Minimal如果设计的转换,Job是保存在数据库中,则命令如下:Kitchen.bat /rep:资源库名称 /user:admin /pass:admin /job:job名Xml保存转换,job流程设计用户定义的作业可以保存在(xml格式)中或某一个特定的数据库中转换的设计文件以.ktr结尾(xml文格式),保存所有配置好的数据库连接,文件相对路径,字段映射关系等信息。Job的设计文件以.kjb结尾,下面是一个调用已经设计好的转换的job文件的一部分:entry namedemo test/name descriptionTransformation/description typeTRANS/typefilename${Internal.Job.Filename.Directory}#47;demo-table2table.ktr/filename transnameload customer data job/transname directory${Internal.Job.Filename.Directory}/directory arg_from_previousN/arg_from_previous exec_per_rowN/exec_per_row clear_rowsN/clear_rows clear_filesN/clear_files set_logfileN/set_logfile logfile/ logext/ ……… /entry 数据库保存转换,job流程列出几个重要的表r_job:保存job的id,name,status,执行时间,创建时间,修改时间等信息建表语句:DROP TABLE IF EXISTS `r_job`;CREATE TABLE `r_job` ( `ID_JOB` bigint(20) NOT NULL, `ID_DIRECTORY` int(11) DEFAULT NULL, `NAME` varchar(255) DEFAULT NULL, `DESCRIPTION` mediumtext, `EXTENDED_DESCRIPTION` mediumtext, `JOB_VERSION` varchar(255) DEFAULT NULL, `JOB_STATUS` int(11) DEFAULT NULL, `ID_DATABASE_LOG` int(11) DEFAULT NULL, `TABLE_NAME_LOG` varchar(255) DEFAULT NULL, `CREATED_USER` varchar(255) DEFAULT NULL, `CREATED_DATE` datetime DEFAULT NULL,

文档评论(0)

wt60063 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档