- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
KETTLE使用说明(中文版)剖析
8.0 连接 :Merge Join(合并排序) 这个步骤将来自两个不同的步骤输入的数据执行一个高效的合并。合并选项包括INNER ,LEFT OUTER , RIGHT OUTER, FULL OUTER. 这个步骤将输入的行按照指定的字段存储 被合并的两个步骤,必须按照相同的段进行排序。 8.1 连接 :合并记录 这个步骤允许你比较两个行流。如果想在两个不同的时间比较数据,这是非常有用的。它常被用于数据仓库源系统没有包含最后更新日期的情况。 两个行流被合并,一个是引用流(旧数据),一个是比较流(新数据),每次都是行里的最后版本通过进入下一步骤,行有以下标记: “Identical” : 关键字在两个流中都存在,并且值相同 “changed” : 关键字在两个流中都存在,但一个或更多的值不同 “new” : 引用流中没有找到关键字 “deleted”: 比较流中没有找到关键字。 比较流中的数据进入下一步骤,除非在”删除”的情况。 9.0 作业 核心对象 1. 通用 (1). START : start是任务执行的入口,首先必须是任务可以执行。只有无条件的任务条目可以从start 入口连接。 (2) job : 另外一个Job. (3) Success (4) Transformation : 选择一个已经存在的 .ktr文件。 (5) dummy : (6) set variables 9.1 作业 核心对象 右击start,选择编辑作业入口,可设置定时。如下图所示。 在job中使用Dummy 条目将什么也不做,这可以使一个任务更清晰的展示,或者在执行循环中使用。 KETTLE 1.1 什么是kettle Kettle 是”kettle E.T.T.L Envirnonment”首字母缩写,这意味着设计实现ETL需要 :抽取,转换,装入和加载数据。 Spoon 是一个图形用户界面,它允 许运行转换或者任务,其中转换是用pan工具来运行,任务是用Kitchen来运行。Pan 是一个数据转换引擎,它可以执行很多功能。例如从不同的数据源读取、操作和写入数据。Kitchen 是一个可以运行利用xml或数据资源库描述的任务,通常任务是在规定的时间间隔内用批处理的模式自动运行。 1.2 安装kettle要运行Kettle ,必须按安装java 环境1.4或以上版本,kettle下载可以到: 取得最新版本。(pdi-ce-4.0.1-stable.zip) 1.3 运行spoon 下面是不同平台上运行spoon 所支持的脚本 : spoon.bat windows 平台运行Spoon. Spoon.sh linux 平台运行Spoon. 1.4 资源库 一个Kettle 资源库可以包含那些转换信息,这意味着为了从数据资源中加载一个转换,你必须连接相应的资源库。 1. 5 资源库自动登录 可以设置以下环境变量,来让 Spoon 自动登录资源库。环境变量:KETTLE_REPOSITORY,KETTLE_USER, KETTLE_PASSWORD 1.6 定义 1.6.1 转换 1. Value : Values 是行的一部分,且包含以下类型的数据: Strings, floating point Numbers 、 unlimited precision BigNumbers、Integers、 Dates 或者 Boolean. 2. Row : 一行包含0个或者个Values 3.Output Stream : 一个Output Stream 是离开一个步骤时的行的堆栈。 4 .Input Stream : 一个Input Stream 是进入一个步骤时的行的堆栈。 5. Hop: 一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop总是代 表着一个步骤的输出流和一个步骤的输入流。 6. Note: 一个Note 是一个转换附加的文本注释信息。 1.6.2 任务 1. Job Entry : 一个Job Entry 是一个任务的一部分,它执行某些内容。 2. Hop: 一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop总是代 表着两个Job Entry 之间的连接,并且能够被原始的Job Entry设置,无 条件的执行下一个JobEntry,直到执行成功或者失败。 3. Note: 一个Note 是一个任务附加的文本注释信息。 1.7选项你可
文档评论(0)