- 3
- 0
- 约4.31千字
- 约 11页
- 2019-11-13 发布于湖北
- 举报
KETTLE使用自己总结的Kettle使用方法和成果说明
简介
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle可以在/网站下载到。
注:ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
下载和安装
首先,需要下载开源免费的pdi-ce软件压缩包,当前最新版本为5.20.0。
下载网址: /projects/pentaho/files/Data%20Integration/
然后,解压下载的软件压缩包:pdi-ce--209.zip,解压后会在当前目录下上传一个目录,名为data-integration。
由于Kettle是使用Java开发的,所以系统环境需要安装并且配置好JDK。
?Kettle可以在/网站下载
? 下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可。
运行Kettle
进入到Kettle目录,如果Kettle部署在windows环境下,双击运行spoon.bat或Kettle.exe文件。Linux用户需要运行spoon.sh文件,进入到Shell提示行窗口,进入到解压目录中执行下面的命令:
# chmod +x spoon.sh
# nohup ./spoon.sh 后台运行脚本
这样就可以打开配置Kettle脚本的UI界面。
Kettle的简单使用
首先,点击“文件—新建—转换”菜单创建一个转换。
我们可以看到转换的主对象数和核心对象区域,然后我们添加一个DB连接。
选择“注对象数”,双击“转换2”标签下的“DB连接”会弹出一个设置窗口。填入连接名称,选择连接类型,配置数据库设置,然后测试下配置是否正确。
由于Kettle没有将所有的数据库的Driver文件集成,所以如果想连接指定的数据库,需要自己下载JDBC驱动,放入到解压目录下的lib目录中。添加完JDBC驱动后,必须重启下Kettle才能加载驱动。
1)Oracle的JDBC驱动:ojdbc6.jar
2)MySQL的JDBC驱动:mysql-connector-java-5.1.32.jar
注:在转换之前需要创建转换所需的表,原始表和转换的目标表。
点击“核心对象”标签页中的“输入”,选择“表输入”拖到“转换”区域。
双击“表输入”图标弹出表输入对话框,填入步骤名称,选择数据库连接,点击“获取SQL查询语句”,或者直接写入SQL语句,填写附件信息,点击“预览”按钮查看执行结果,没有错误,点击“确认”关闭对话框。
点击“核心对象”—“输出”,选择“Excel输出”拖入到转换区,双击Excel输出图标,弹出对话框,选择文件名和其它附加参数,点击确认。
点击输入表的图标,同时按下shift键,再点击输出文件,将两者连接起来。然后双击Excel输出进行配置。
最后一步就是执行kettle脚本,点击工具栏上的绿色箭头即可。
点击“启动”开始转换,在转换过程中会出现转换的信息,如下图所示。
完成转换后,我们可以Excel输出目录中查看转换结果。
注:时间字段换到Excel为空,修改SELECT语句中使用TO_CHAR转换成字符串,例如:TO_CHAR(START_TIME, yyyy-mm-dd HH24:MM:SS) AS START_TIME。
注:Excel中的记录不能超过65535条,否则会自动关闭文件,导致转换失败。
上面是一个简单的数据迁徙脚本,从数据库导出数据到EXCEL文件中。
Kettle处理HBase
本教程使用的软件版本信息如下:
1)Hadoop(1.2.1)
2)Pantaho Data Integration(5.2.0)
3)HBase(0.94.19)。
Pentaho Shim(社区版)目前支持的Hadoop版本:
参考:
/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version
注:从上表中看出它不
您可能关注的文档
- 脂肪干细胞培训.pptx
- 腰果壳液及其应用.pdf
- 腰1压缩性骨折.ppt
- 腐蚀与防护-第4周-讲稿.pdf
- 脊髓损伤查房新2.ppt
- 腰椎间盘疾病.pptx
- 腮腺肌上皮瘤.ppt
- 腰椎压缩性骨折手术治疗护理查房PPT课件.PPT1.13.ppt
- 腹部损伤病人的护理1.ppt
- 腔肠动物门_扁形动物.ppt
- 中国国家标准 GB/Z 41305.6-2026环境条件 电子设备振动和冲击 第6部分:利用螺旋桨式飞机运输.pdf
- 《GB/T 46969-2025中国图书馆机读规范数据格式》.pdf
- 《GB/T 12903-2025个体防护装备术语》.pdf
- 2025至2030中国负载测试工具行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030中国钨(VI)氟化物气体市场竞争格局及未来需求趋势分析报告.docx
- 2025至2030中国医用隔离膜产品行业调研及市场前景预测评估报告.docx
- 2025至2030中国铜材市场经营模式分析及竞争趋势预测报告.docx
- 2025至2030中国氙气试验箱行业调研及市场前景预测评估报告.docx
- 2025-2030中国PDLC智能调光膜市场产销需求与竞争前景分析研究报告.docx
- 2025至2030中国电子稳压器行业市场深度研究与战略咨询分析报告.docx
最近下载
- 一种棋类教学展示用面板.pdf VIP
- 《支气管哮喘哮喘》课件.ppt VIP
- 2024年茶评员高级技师(一级)职业鉴定理论考试题库(含答案).docx VIP
- 信息科技大单元教学设计之七年级第三单元便捷的互联网服务.pdf VIP
- 浙江杭州市临安区中医院招聘笔试备考试题及答案解析.docx VIP
- 2024年茶评员技师(二级)职业鉴定理论考试题库资料(含答案).pdf VIP
- 山西省办理《出生医学证明》授权委托书.docx VIP
- 2025年杭州市临安区中医院医共体招聘合同制员工11人笔试备考试题及答案解析.docx VIP
- 2026年云南省昆明市“三诊一模”高考物理模拟试卷(一)(含答案).pdf VIP
- 天融信防火墙NGFW4000配置手册簿.pdf VIP
原创力文档

文档评论(0)