网站大量收购独家精品文档,联系QQ:2885784924

Kettle简单实例陈畅.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Kettle简单实例陈畅

KETTLE简单实例 V0.1 成果状态 申报人及审核人 日 期 申 报 陈畅 2008年月日 2008-2-18 终 审 程宏斌 2008-2-18 知识成果简要信息表 成果名称 KETTLE简单实例 分类层次 研发类 关键字 ETL,开源 适用范围 搭建KETTLE环境,使用KETTLE作为ETL工具的项目。 内容摘要 KETTLE简单转换实例 总结 成果形式 Word文档 创建人 修订日期 创建时间 2-15 版本信息 2-15 版本号 说明 作者 V0.1 创建文档初审 陈畅 审核状态 审核人 通过审核日期 审核意见 初审 于洋 2008-2-18 该文档可以作为开源ETL的工具入门手册,对公司开源平台构建的有益补充。 终审 程宏斌 2008-2-18 该文档可以作为开源ETL的工具入门手册。 概要 越来越多的项目需求需要我们使用ETL工具进行数据的抽取转换。收费ETL工具价格一般都很高,造成了项目成本难以缩减,而项目利润降低。我们的目的就是寻找一款开源且功能强大的ETL工具。本文通过对开源ETL工具KETTLE进行简单的使用来试验开源ETL工具的实用性。 开发环境建立 支持资源 Kettle 3.01 任意数据库一种,我使用的是postgresql-8.2.5 创建ETL资源库 进入Kettle的目录,点击Kettle.exe文件。 新建etl资源库,点击新建按钮。 点击新建 填写相关数据库连接信息,并测试。通过点确定即可。 简单数据源创建 建立一个简单的数据源,这之前我们先了解一下,Kettle支持很多种数据源的形式,我们看以下截图。 在这里我们建立一个CSV文件输入,在数据中心项目中我们也很多次的使用过CSV文件,CSV文件是一种纯文本文件,里面数据使用逗号隔开的,通过Excel我们可以创建一个CSV文件。 保存完后我们看看 转换过程创建 好了,准备工作我们都完成了,现在我们可以进入Kettle来进行我们的正式工作了。 进入Kettle的目录,点击Kettle.exe文件。 选中我们在前边创建的资源库,这里我命名的是etl,登陆名密码默认的是admin/admin。 进来看到的是如上界面。点击新建一个转换。 出现如下界面 打开核心对象选项卡,拖拽CSV file Input到转换1的范围内。 双击CSV file input视图,看到如下设置界面。 浏览选中我们前边创建的csv文件,点击获取字段,自动获取csv文件中的字段信息,如果有出入,可以对字段信息进行修改。点击确定。 下边重头戏来了,我们在核心对象选项卡中找到Transform子选项卡。 这里有很多种转换的内容,这里我选了个较简单的,我选择了值映射,如法拖拽到转换1区域。 双击值映射视图,我们来进行转换设置。 设置aa字段下的将d字母转换为b字母。点击确定完成。 找到output选项卡,这里我们要完成ETL过程的最后一步,我们需要输出一个结果,和输入一样,Kettle支持很多输出的媒介。 这里我们选择文本文件输出。如法拖拽。双击修改属性。 设置完成点确定。 这时候我们完成我们所有元素的设置,来看看完成的结果。 感觉是不是缺少了点什么?对,我们现在有了节点,缺少了节点运行的顺序和关联,我们来把线一连。 选择主对象树选项卡,在hops节点上,右键,选择新建。 选好我们的顺序,在这里我的顺序是input-转换-output。要建立2个线,选择完成后确定。 连接好了就是这个样子。好了我们的步骤都完成了,现在我们运行看看结果。在菜单栏,我们找到运行按钮。 点击后,进入如下界面 点击launch进入另一个界面。 运行成功!如果失败,会有红色标志及错误信息。 这里我们可以去看看我们的output文件,确定下我们的成果。 总结 Kettle是一个开源的etl工具,它提供了丰富的转换接口,支持几乎所有的数据库,使用jdbc的方式,跨平台能力很强。作为一个开源的工具,当然也存在很多开源项目的通病,但是有点也同样明显。作为一次试验的使用,我个人感觉从易用性及功能上来看这都是一个相当成熟的etl工具。希望通过我的使用能够抛砖引玉,能够让这个工具在我们的项目中起到更多的作用。 知识成果名称 KETLLE简单实例 所属目录 研发类 版本号 V0.1 - 2 -

文档评论(0)

173****7830 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档