第十一章 kettle文档.docx

下载文档 降价啦

9
0
约4.31千字
约 37页
2017-06-07 发布于湖北
举报
版权申诉
保障服务

第十一章 kettle文档.docx

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Kette 之前最好都给排序，注意大小写敏感1、输入1．1）文本输入：就是程序读取文本文件里边的东西，我现在用到的是自己到处去的文件。给拉出来的文本起名文件卡里边先浏览选着自己用到的文本，点击添加，选中的文件会到“选中的文件”框里边图中的“1”就是我选中的文件之后点击“字段卡”在下边有个“”点击它会出现你导出时候的字段名称，下边有“”可以查看里边的记录1.2）表输入“编辑”就是选着数据库“获得sql查询语句”就是得到数据，下边可以预览然后会出现在你可以对语句进行编辑，去掉你不要的字段，或者加条件去掉的字段不会在导出的文件中出现，2、输出2.1）文本输出“步骤名称”是给选着的文本文件的加名字的“文件卡”中的“浏览”中是选着文本输出的地方和起名字的“字段卡”点击这个你会看见下边有“获取字段”这个是得到输出的字段的名称，默认的是全部输出2.2)输出表“步骤名称”kettle起名用的“数据库连接”是选着数据库“编辑”是修该数据库“目标表”是选着存入的表“Specify datebase fileds”挑勾它说明说上说选没说为什么“Datebase fileds卡”中点击“ enter filed mapping”第一个文本框是读进来的表的字段第二个文本框是写数据库中的字段第三个是他们的对应关系在这你可以选择自己要的字段然后点add（注意数据库表的字段类型一定要一样，要不报错），你也可以选择guess ，这个是根据字段的名字去猜，如果你的字段类型不一样，报错，出现在第三个文本框中的才是写如表的字段3、连接3. 1）“Merge”“第一个步骤”选择导入的“输入表”或“输入文件”“第二个步骤”选择导入的“输入表”或“输入文件”“连接类型”是内连接外连接做连接有连接。“获得连接字段”是根据什么字段进行连接，结果和数据库的连接结果一样，（如果结果多了，可能是连接的字段那边有几个样的行是相同的）3.2）Sorted Merge（储存合并）我感觉这个是把两个表一样的列，合并到一起（一样的列他自己就接到后边了，不用去设置，他根据你的字段名自己去找），输出时候可以输出多出来的字段，一个表的字段与另一个表的字段内容接到一起时候，输出列的没有同名的话，输出null；原图1；原图2；结果：“”哪个字段排序。3.3）合并记录：这个和上边的基本一样，但是效率没上边的高，不同点是，这个合并时候进行比较，会多出来个字段，并判断数据是否有变更（旧的）原图1：（新的）原图2：结果：和试了几个效果一样，有待在深入研究。参考如下：3.4）记录关联 (笛卡尔输出)原图1：原图2：结果：“”这个我测试，选择文件大小小点的文件速度快些。“”可以加一些输出的条件。转换4.1)split field to rows（这个的功能就是把一列【必须是string型的】按标点或字符拆分开，拆分成的生成新的列）原图结果“Field to split ”选择要的拆分字段“delimiter”定界符—按什么去拆分这个字段“new field name ”拆分出来的字段的名字4.2)去掉重复记录原图结果“增加计数器到输出”调勾的话时就增加计数器，把字段的重复的数量输出出来“计算器字段”给字数器起名“字段名称”选择要去重复的字段，这个输出的原理是选择了就把这一列重复的都去掉，在这行的别的列不重复的也去掉，增加计数器的话，在后边在多出来一列，显示去掉的行数的几个4.3）增加常量(就是增加一列，列的值是自己给定的，行数是按别的列的最大行数给出的)原图结果“名称”增加常量的字段名“类型”得到的结果的类型“值”增加的常量是什么增加序列（就是加个序列1——n）原图结果这个没什么说的我用的都是“使用转换计数器来生成序列”基本都不行调4.5）字段选择原图结果“选择和修改”选择你要改名的字段。“改名成”修改成你想要的名称这个只能输出你选择了的字段，如果不写name 的话出的时候就只能得到id的字段4.6)拆分字段原图结果“需要拆分的字段”你要分的字段“分隔符”按什么去拆分“新的字段”你拆分出来的字段给其起个名，拆分出来几个字段就起几个名，（注意:类型一定要填写，要不会报错）排序记录（给记录按升序降序排列的）原图结果“仅仅传递非重复的记录”就是去掉这个字段的重复的记录，（只要是这个字段的重复记录就去掉，同行的不是重复的也去掉）“字段名称”你要排序的字段“升序”就是你要排序的方式4.8）换转列下边的列原图“关键字”一般为主见，唯一的。“分组字段”按什么分组“目标字段”输出的结果的字段名“value fieldname”把哪列进行转列“关键字”根据什么去分的（可能是另一个有规律的列去划分的，“目标字段”就包含这个列的值）“类型”定义一个输出类型4.9)计算器原图结果“新字段”计算后的输出的字段名“计算”里边写好的算法，选择