- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Kettle 基础培训 (一)目录一、 Kettle 介绍二、 Kettle的要求环境(JDK版本)、安装、基本操作。三、 Kettle的组件的类型基本说明(作业与转换)四、基于表对表的同步五、基于文件到表的同步六、基于表到文件的同步七、JAVASCRIPT的基本应用八、文件FTP下载、上传。九、作业调用作业、转换。十、启动脚本说明。十一、JAVA调用作业、转换十二、使用原则简介ETLETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%,这是国内外从众多实践中得到的普遍共识。ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。简介KettleKettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation工作流的控制。完成针对数据的基础转换,job则完成整个KETTLE的要求环境(JDK版本)、安装、基本操作KETTLE要求先安装JDK1.5版本或以上无需安装下载后直接运行spoon.bat即可KETTLE的组件的类型基本说明(作业与转换)Kettle中有两种/view/1295748.htm脚本文件,transformation(转换,后缀为.ktr)和job(作业, 后缀为.kjb),transformation完成针对数据的基础转换,好比工厂里的生产流水线,每个组件相当于一个员工;job则完成整个工作流的控制,好比工厂里的管理。如果用记事本打开文件可发现转换和作业都是xml类型文件。KETTLE的组件的类型基本说明(作业与转换)作业:分串行执行和并行执行,串行执行是先执行完其中一条线再执行另一条线,并行是两条线同时执行,同一条线上的两个步聚会先执行前面的再执行后面的,每个步骤执行结果分两种:true(成功)/false(失败),根据返回结果可以控制流程走向。KETTLE的组件的类型基本说明(作业与转换)作业流程图说明KETTLE的组件的类型基本说明(作业与转换)转换:一传递分复制和分发两种模式。开始所有步骤同时运行,记录会从最前端的步骤向后传递,传递到相应步骤则该记录被该步骤作相应处理,处理完成再把记录往后传递,记录KETTLE的组件的类型基本说明(作业与转换)复制:把一份数据复制成多份,后面步骤各占一份。分发:把一份数据平均分配给后面步骤。基于表对表的同步表对表同步是最基本的同步方式之一实现步骤: 一、建立源库连接和目标库连接 二、使用表输入组件进行源表数据读取 三、对记录进行适配整理 四、使用表输出组件输出到目标表KETTLE的组件的类型基本说明(作业与转换)新建一个转换:文件->新建->转换基于表对表的同步基于表对表的同步基于表对表的同步基于表对表的同步基于文件到表的同步新建一个转换流程:从文件读取记录?插入到数据库中基于文件到表的同步基于文件到表的同步基于文件到表的同步基于表到文件的同步新建一个转换实现从表里读取记录生成文件基于表到文件的同步基于表到文件的同步基于表到文件的同步JAVASCRIPT的基本应用文件FTP下载、上传作业:FTP下载从FTP上下载相应文件到指定目录下文件FTP下载、上传文件FTP下载、上传文件FTP下载、上传作业:FTP上传上传本地文件到相应FTP指定目录上文件FTP下载、上传作业调用作业、转换文件->新建->作业作业可以调用作业,这样方便流程控制。作业调用作业、转换作业调用作业、转换作业也可以调用转换作业调用作业、转换启动脚本说明KETTLE程序启动分两种,一种是作业、一种是转换。作业调用启动脚本: kitchen.sh( kitchen.bat)转换调用启动脚本: pan.
您可能关注的文档
最近下载
- 高职入学考试英语复习指导丛书—语法专项训练教学课件(第四章数词).pptx VIP
- 2025年秋统编版语文三年级上册全册教学课件(课标版).pptx
- 2025年最新人教版小学二年级数学上册教学计划及进度表(新课标,新教材).docx
- 小区监控系统设计方案.pptx VIP
- 丹方模拟器1.32(新增龙宫草药)(1).xlsx VIP
- 等一朵花开读书分享PPT.pptx VIP
- 2012国际严重脓毒症和脓毒症休克治疗指南(SSC)..doc VIP
- 【免费】小学一年级数学“凑十法”练习题100道 .pdf VIP
- 幼儿园装修工程实施方案(模板范文).docx
- 高中物理必修二学历案.docx VIP
文档评论(0)