- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
KETTLE使用说明(中文版)剖析
8.0 连接 :Merge Join(合并排序) 这个步骤将来自两个不同的步骤输入的数据执行一个高效的合并。合并选项包括INNER ,LEFT OUTER , RIGHT OUTER, FULL OUTER. 这个步骤将输入的行按照指定的字段存储 被合并的两个步骤,必须按照相同的段进行排序。 8.1 连接 :合并记录 这个步骤允许你比较两个行流。如果想在两个不同的时间比较数据,这是非常有用的。它常被用于数据仓库源系统没有包含最后更新日期的情况。 两个行流被合并,一个是引用流(旧数据),一个是比较流(新数据),每次都是行里的最后版本通过进入下一步骤,行有以下标记: “Identical” : 关键字在两个流中都存在,并且值相同 “changed” : 关键字在两个流中都存在,但一个或更多的值不同 “new” : 引用流中没有找到关键字 “deleted”: 比较流中没有找到关键字。 比较流中的数据进入下一步骤,除非在”删除”的情况。 9.0 作业 核心对象 1. 通用 (1). START : start是任务执行的入口,首先必须是任务可以执行。只有无条件的任务条目可以从start 入口连接。 (2) job : 另外一个Job. (3) Success (4) Transformation : 选择一个已经存在的 .ktr文件。 (5) dummy : (6) set variables 9.1 作业 核心对象 右击start,选择编辑作业入口,可设置定时。如下图所示。 在job中使用Dummy 条目将什么也不做,这可以使一个任务更清晰的展示,或者在执行循环中使用。 KETTLE 1.1 什么是kettle Kettle 是”kettle E.T.T.L Envirnonment”首字母缩写,这意味着设计实现ETL需要 :抽取,转换,装入和加载数据。 Spoon 是一个图形用户界面,它允 许运行转换或者任务,其中转换是用pan工具来运行,任务是用Kitchen来运行。Pan 是一个数据转换引擎,它可以执行很多功能。例如从不同的数据源读取、操作和写入数据。Kitchen 是一个可以运行利用xml或数据资源库描述的任务,通常任务是在规定的时间间隔内用批处理的模式自动运行。 1.2 安装kettle要运行Kettle ,必须按安装java 环境1.4或以上版本,kettle下载可以到: 取得最新版本。(pdi-ce-4.0.1-stable.zip) 1.3 运行spoon 下面是不同平台上运行spoon 所支持的脚本 : spoon.bat windows 平台运行Spoon. Spoon.sh linux 平台运行Spoon. 1.4 资源库 一个Kettle 资源库可以包含那些转换信息,这意味着为了从数据资源中加载一个转换,你必须连接相应的资源库。 1. 5 资源库自动登录 可以设置以下环境变量,来让 Spoon 自动登录资源库。环境变量:KETTLE_REPOSITORY,KETTLE_USER, KETTLE_PASSWORD 1.6 定义 1.6.1 转换 1. Value : Values 是行的一部分,且包含以下类型的数据: Strings, floating point Numbers 、 unlimited precision BigNumbers、Integers、 Dates 或者 Boolean. 2. Row : 一行包含0个或者个Values 3.Output Stream : 一个Output Stream 是离开一个步骤时的行的堆栈。 4 .Input Stream : 一个Input Stream 是进入一个步骤时的行的堆栈。 5. Hop: 一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop总是代 表着一个步骤的输出流和一个步骤的输入流。 6. Note: 一个Note 是一个转换附加的文本注释信息。 1.6.2 任务 1. Job Entry : 一个Job Entry 是一个任务的一部分,它执行某些内容。 2. Hop: 一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop总是代 表着两个Job Entry 之间的连接,并且能够被原始的Job Entry设置,无 条件的执行下一个JobEntry,直到执行成功或者失败。 3. Note: 一个Note 是一个任务附加的文本注释信息。 1.7选项你可
您可能关注的文档
- K0209起重吊装安全常识剖析.ppt
- jt8.小桥流水人家(完美版)剖析.ppt
- 2016年个人销售工作计划书范文汇编.doc
- J波综合征剖析.ppt
- 2016年中医执业医师试题及答案解析汇编.doc
- JGJ59-2011-临时用电规范标准剖析.ppt
- jzp-镁的提取剖析.ppt
- 2016年上半年成都房地产市场报告93p汇编.ppt
- 2016年中央国家公务员行测真题及答案解析(清洁下载版)汇编.docx
- 2016年中山市会计后续教育97分试题及答案小企业会计准则汇编.doc
- 2024-2030年中国合成树脂瓦市场销售渠道与投资商机盈利性研究报告.docx
- 2024-2030年中国合成材料行业发展趋势及发展前景研究报告.docx
- 2024-2030年中国同步相器行业市场发展趋势与前景展望战略研究报告.docx
- 2024-2030年中国合成树脂牙行业市场发展趋势与前景展望战略分析报告.docx
- 2024-2030年中国合成沸石粉市场占有率调查与未来发展战略规划研究报告.docx
- 2024-2030年中国合成氨行业竞争对手及市场运行动态分析报告.docx
- 2024-2030年中国吸尘设备行业市场深度调研及发展趋势与投资前景研究报告.docx
- 2024-2030年中国启动电机行业投资风险与发展销售预测分析研究报告.docx
- 2024-2030年中国吸污车市场发展分析及市场趋势与投资方向研究报告.docx
- 2024-2030年中国吹制羊毛行业销售动态与供需前景预测报告.docx
文档评论(0)