kettle数据抽取步骤及问题.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Kettle数据抽取步骤 1、部署运行kettle 把kettle安装包拷到本地,windows双击spoon.bat即可打开管理界面。登录时选择“没有资源库”,定义的转换以.ktr文件的方式存储在本地磁盘上。 2、创建一个转换流 2.1、点击文件—新建—转换,就创建了一个图形用户界面。例: 2.2、选择控件 (1)在输入中选择“excel输入”或“csv输入”,拖到界面里即可。 A、以Excel文件作为数据源,以表的方式保存。 Excel表设置:双击Excel 输入,点击面板中“文件”选择浏览,选中需要导入的excel文件,点击增加;点击面板中“工作表”----获取工作表名称,将相应的sheet加入;点击面板中“字段”----获取来自表头部数据的字段---以得到相应表中的字段,可以设置字段的数据类型(一般都设置为string类型)。可以预览一下表中的数据(如果不能浏览,可根据错误提示查找错误原因)。 例: B、csv文件导入:csv是一种用来存储数据的纯文本,文件格式,通常用于电子表格或数据库软件。 Txt文件设置:双击csv文件输入,在面板中浏览要作为数据源的文件并将它添加,点击“获取字段”----获取来自表头部数据的字段…得到相应表中的字段,设置字段的数据类型,选择去除空格类型中的去掉左右两端空格。可以预览一下表中的数据(如果不能浏览,可根据错误提示查找错误原因)。例: (2)转换中选择“字段选择”:双击打开,获取选择的字段属性。选择和修改:是指定输入流到输出流中的字段的名称,也可以指定字段的精度和顺序。因为要做一些选择,excel表中有的字段表中没有,不需要导入到表中。例: (3)转换中选择“排序记录”:利用指定的字段排序,无论是升序还是降序。点击“获取字段”会将插入字段到网格中,根据实际需要选择排序的字段。 可根据需要合并的字段来去重。例: (4)输入中选择“表输入”:新建数据库连接,可读取数据的数据库连接(设置主机名称、数据库连接、用户名、密码、连接名称)。 SQL框中输入SQL语句,利用sql语句从数据库中读取数据。例: (5)连接中选择“合并记录”:比较两个行流。两个行流被合并,一个是引用流(旧数据),一个是比较流(新数据)。例: 匹配的关键字段:用于定位两个数据源中的同一条记录。 比较字段:对于两个数据源中的同一条记录中,指定需要比较的字段。 该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该 步骤将旧数据和新数据按照指定的关键字匹配、比较、和并。 需要设置的参数: 旧数据来源:旧数据来源的步骤 新数据来源:新数据来源的步骤 标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种。 1、“identical” – 旧数据和新数据一样 2、 “changed” – 数据发生了变化; 3、“new” – 新数据中有而旧数据中没有的记录 4、 “deleted” –旧数据中有而新数据中没有的记录 合并后的数据包括旧数据和新数据来源里的所有数据,对于变化的数据,使用新数据代替旧数据,同时在结果里用一个标识字段,来指定新旧数据的比较结果。 注意:旧数据和新数据需要事先按照关键字段排序;旧数据和新数据要有相同的字段名称。 例: 旧表: 新表: f1 f2 f1 f2 1 1 1 1 2 2 2 9 3 3 5 5 4 4 设置:标志字段是f,关键字段是f1,比较字段f2 合并后的数据: f1 f2 f 1 1 identical 一样 2 9 changed 改变的 3 3 deleted 删除 4 4 deleted 删除 5 5 new 新建 (6)流程中选择“过滤记录”:允许根据条件和比较符来过滤记录。例: 可以简单的标识符(flagfield)= value来构建条件。 指定条件返回“true”的数据,发送“true”数据给该步骤;指定条件返回“false”的数据,发送“false”数据给该步骤。 (7)在流程中选择“空操作”:作用是充当占位符。 (8)统计中选择“分组”:可以通过分组的字段来计算值。例: 聚合,指需要聚合的字段、方法以及新字段结果的名称。 包含所有的行,如果选择此项,输出中就包含所有的行,不仅仅是聚合。 (9)转换中选择“增加常量”:添加常量到流中。用字符串形式指定名称、类型和值,利用选择的数据类型指定转换格式。例: (10)转换中选择“字符串操作”,去除字符两边的空格 (11)输出中选择“表输出

文档评论(0)

冷冷的冰雨 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档