《Kettle基本知识交流》.ppt

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
点击获取字段按钮,可自动获取字段名称,然后编辑相关属性,预览记录。 编辑输出表控件属性 然后点击绿色按钮,启动转换 保存转换 可以查看执行结果 可以加入执行SQL脚本 在核心对象中有很多控件可用来实现数据的ETL功能。 创建作业 从左侧通用栏目中拖拽两个控件 双击Transformation 1进行编辑 保存jobs后执行任务 Kettle 调度 利用Kitchen工具实现作业的调用 Kitchen.bat /file:D:\job_name.kjb /level:Basic * * * * * * * * Kettle基本知识交流 Kettle 培训内容 Kettle 功能与产品介绍 Kettle 控件介绍 Kettle 案例演示 Kettle 调度 Kettle介绍 Kettle 是一款开源的、元数据驱动的ETL工具集,是开源 ETL 工具里功能比较强大的一个。 Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT 在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出。 Pentaho 产品线 Pantaho产品线 Reporting:可集成Jasper和BIRT Data Mining:Weka Analysis:Mondrian Dashboards: Data Integration:Kettle Kettle 家族 Kettle 5.0家族目前包括几个产品: Spoon—转换(transform)设计工具 (GUI方式) Pan—转换(transform)执行器 (命令行方式) Kitchen—工作(job)执行器 (命令行方式) Carte —基于Jetty的,监听Http请求 Encr —用户加密密码 Kettle 四大家族 Spoon允许你通过图形界面来设计ETL转换过程(Transformation)和作业。例如,从一个SAP系统抽取数据,并把这些数据存储到一个文件里的转换任务如下: Pan允许批量运行由Spoon设计的ETL转换(例如使用时间调度器)。Pan是一个后台执行的程序,没有图形界面。 Kitchen允许批量使用由Chef设计的任务(例如使用一个时间调度器)。KITCHEN是一个后台运行程序。 Job和Transformation的差别:Transformation专注于数据的ETL,而Job的范围比较广,可以是Transformation,也可以是Mail、SQL、Shell、FTP等,甚至可以是另外一个Job。 ?? Kettle 的安装 要运行此工具你必须安装Sun 公司的JAVA 运行环境1.4 或者更高版本,相关资源你可以到网络上搜索JDK 进行下载 绿色免安装,解压即可用。 在不同的平台上运行Spoon 所支持的脚本: Spoon.bat: 在windows 平台运行Spoon。 Spoon.sh: 在Linux、Apple OSX、Solaris 平台运行Spoon。 Kettle转化功能介绍 1 Kettle 中有两种脚本文件,transformation (.ktr)和 job(.kjb),transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。 所有功能支持控件化,使用简单 支持多样化数据源类型: 基本的文本文件 Access、Excel、XML、Property文件格式 MDX查询语言、 Cube文件、Streaming XML数据流 自动产生空记录或者行 从XBase类型文件(DBF)读取数据 关系型数据库 获取系统信息如文件名称、系统时间等 Kettle转化功能介绍 2 特殊目标数据源支持 把数据写入到Cube 把数据写入XML 支持多种查询 调用数据库存储过程 基本的数据库查询 判断表以及列、操作系统文件是否存在 从URL接收查询 使用Web服务查询信息 使用数据流中的值作为参数来执行一个数据库查询 流查询:从转换中其他流里查询值 转换功能 值映射、分组、去重、拆分字段、行列转换 复制行 Kettle转化功能介绍3 支持的脚本 JS脚本 SQL脚本 正则表达式 支持渐变维度更新 批量加载: Greenplum Bulk Loader Oracle Bulk Loader MSSQL Bulk Loader MYSQL Bulk Loader PostgreSQL Bulk Loader 支持分区表和集群 Kettle作业功能介绍 1 可以执行操作系统命令和操作: Ping 主机

文档评论(0)

tangzhaoxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档