- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
v1.0 可编辑可修改
v1.0 可编辑可修改
PAGE 1
PAGE 1
第 1 页 共 69 页
[ ] 初稿
[ ] 发布
[ √] 修订
编 撰: 肖渺
编撰日期: ****-**-** 保密级别: 公开
文档版本:
【 KETTLE 开源 ETL 软件 】
【安装配置与使用说明】
2015 年 09 月
v1.0 可编辑可修改
v1.0 可编辑可修改
PAGE 2第 2 页 共 69 页
PAGE 2
第 2 页 共 69 页
修订记录
版本
修订者
修正日期
修正内容
审核人
审核日期
批准人
批准日期
肖渺
2015-09
初稿
增加 Hadoop
肖渺
2015-10
Plugin 相关配
置对应章节
肖渺
2015-11
增加章节
肖渺
2015-12
增加 MapReduce
开发部分章节
目 录
修订记录
1. 安装与配置
1.1 ETL 与 KETTLE 概述
1.2 KETTLE 的下载与安装
1.2.1 Windows下安装配置Kettle
1.2.2 Linux 下安装配置Kettle
1.2.3 Kettle下安装JDBC 数据库驱动
1.2.4 下配置资源库连接
1.2.5 Kettle下Hadoop Plugin插件配置
2. KETTLE 组件介绍与使用
2.1 KETTLE SPOON 使用
2.1.1 组件树介绍
2.1.2 使用示例1
2.1.3 使用示例2
2.1.4 使用Kettle装载数据到HDFS
2.1.5 使用Kettle装载数据到Hive
2.1.6 使用Kettle进行hadoop的mapreduce图形化开发
2.2 KETTLE PAN 的使用
2.3 KETTLE KITECHEN 的使用
2.4 CARTE 添加新的 ETL 执行引擎
2.5 ENCR 加密工具
安装与配置
2015 年下半年公司承接了江苏电信电子渠道中心数据分析项目,项目实现计划使用大数据应用与分析相关的开源组件与技术来实现;针对数据的抽取与清理,需要使用 ETL 工具;针对不同的数据源的数据整合需求,考虑到项目投资与开发成本,项目组初步计划采用开源 ETL 工具;ETL (Extract,Transformation,Load)工具是构建数据仓库、进行数据整合工作所必须使用的工具。目前市面有多种商业 ETL 工具,如 Informatica PowerCenter, IBM Datastage 等。目前市场上开源且实用的 ETL 工具比较少,Kettle 就是为数不多的优秀开源 ETL 工具之一。经过比较与分析,选择了 Kettle 作为本项目使用的 ETL 工具。
ETL 与 Kettle 概述
ETL(Extract、Transform、Load,抽取、转换、装载),它是 BI 项目中最常见、基础的数据加工行为。构建数据仓库期间,各类业务系统的数据需要经过严格的 ETL 过程, 才能够进入到数据仓库中,进而为后续的数据展现、分析提供支撑。通常,由于企业的各业务系统数据口径不一致,比如不同应用存储性别的方式存在差异性、银行应用中不同币种的统一、零售应用中商品计价方式的统一等,使得BI 项目必须实施 ETL 工作,否则在含糊、不准确的数据上进行各种数据行为是徒劳的、没有意义的。
在另外一些场合,企业往往需要对 TB 级别的数据进行各种数据聚合、粗和精加工。比如,在制作即席报表期间,用户希望这些报表的运行时间越短越好,然而如果报表使用到的数据粒度很细、数据量很大,则要控制好报表的运行时间估计够呛。此时,我们往往需要对数据进行各种层次的聚合操作,比如可以将“日”级别存储的数据预先聚合成按周、月、季度的数据。将来,运行报表的时间将得到有效控制,毕竟 RDBMS 能够更快速响应客户提交的 SQL 请求。设计并运行良好的 ETL 过程可以很好地完成上述任务。
Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,可以在 Window、Linux、Unix
等不同的操作系统平台上运行,数据抽取高效稳定。
Kettle 这个 ETL 工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述用户想做什么,而不是用户想怎么做。
在 Kettle ETL 解决方案中,主要存在两种 ETL 工件:转换(Transformation)和作业(Job)。ETL 转换,专注于数据加工本身,比如装卸数操作、数据编码转换;ETL 作业,专注于流程控制,比如执行若干 ETL 转换、将加工后的文件借助 SSH2 传输出去等。通常, ETL 作业会包含若干 ETL 转换,并控制它们的执行,而且作业会以一定周期执行,比如每周二执行、每隔 3 小时执行等。
Ke
本司主营文章撰写、培训教材、合同协议、发言稿、策划、汇报、各类文案。 ~ 海量资深编辑老师无缝对接,一对一服务。 ~ 保原创!可加急!免费改!
原创力文档


文档评论(0)