- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETL工具--KETTLE研究及实践
IVO Confidential InfoVision Optoelectronics IVO Confidential * IVO Confidential * ETL工具研究 ---KETTLE 田浩元 2014.12.10 ETL是什么? ETL(数据仓库技术) ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。 ETL一词较常用在数据仓库,但其对象并不限于数据仓库。 ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 ---From百度百科 KETTLE介绍 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员希望把各种数据放到一个壶里,然后以一种指定的格式流出。 KETTLE介绍 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。 KETTLE实践 Kettle是一款免安装 软件; Spoon.bat是window下 运行的批处理文件 Spoon.sh则是Linux KETTLE实践 欢迎界面 KETTLE实践 该怎么理解KETTLE 输入 输出 转换逻辑 KETTLE功能简介 输入—表输入 选择表输入,点击鼠标右键,选择编辑步骤。 步骤名称可以更改,一般更改为和输入表相关的名称。 数据库连接 : 选择一个已建好的数据库连接,也可以新建一个。 点击”获取SQL查询语句”,可弹出数据库浏览器,选择自己需要的表或视图。 选择好表或视图后,SQL 区域会显示相应的SQL,如选择在SQL里包含字段名,你所选择的表的所有字段均会显示. 在SQL区域用户可手动修改SQL语句。 输出—Excel输出 Excel 输出编辑步骤选项,有六个选项卡。 文件选项卡: 文件名选择输出文件保存的路径。 内容选项卡: 一般不需做修改。 字段选项卡:点击获取字段,输入流中的字段全部会获取到,不需要的字段,可选中不需要的行,右键删除。 输出—插入/更新 插入/更新:若流里的数据在目标表中不存在,执行插入,否则执行更新,数据量不大的情况下,一般采用插入/更新操作。 输出—更新 这个步骤类似于插入/更新步骤,除了对数据不作插入操作之外。它仅仅执行更新操作 输出—删除 这个步骤类似于更新步骤,除了不更新操作之外,其他的行均被删除 输出—表输出 这个步骤可以存 储信息到数据 中 转换—去除重复记录 这个步骤从输入流中移除重复的记录 增加计数器到输出: 如果想知道多少重复行被去掉,就勾选此项。 字段名 : 用来比较的字段的字段名称。 转换—拆分字段 这个步骤允许根据分隔符来拆分字段。 步骤名称:在单一转换中必须唯一 需要拆分的字段: 想要拆分的字段的名称。 分隔符: 决定字段结束的分隔符 字段 : 拆分形成的字段列表。 例如: 某字段包含 : (123,456,789) , 使用逗号(,)分割符,可将字段分成三个段。 流程—过滤记录 这个步骤根据条件和比较符来过滤记录。 发送true数据给步骤: 指定条件返回true的数据将发送到此步骤 True 和false 步骤必须指定。 发送false数据给步骤: 指定条件返回false 的数据将发送到此步骤。 连接—记录集连接(Merge join) 这个步骤将来自两个不同的步骤输入的数据执行一个高效的合并。合并选项包括INNER ,LEFT OUTER , RIGHT OUTER, FULL OUTER. 这个步骤将输入的行按照指定的字段存储 被合并的两个步骤,必须按照相同的段进行排序。 KETTLE实践 要求:将CMS数据库中的报案记录表,筛选出需要的栏位, 插入到KPI数据库表中 该怎么做? 程式使用定时器实现Export ? import ? 太浪费时间 如何使用KETTLE实现 这就是KETTLE实现 - 替换NULL值 - KETTLE实践 1、数据的来源(输入)有哪些? 2、中间的逻辑处理(转换等)能做什么? 3、数据可以输出到什么地方?只能输出到数据库吗? KETTLE实践 实践1:KPI第三项 要求:记录报案,
您可能关注的文档
最近下载
- 《机械装调技术》电子教案 模块五 整机调试与运行任务一 齿轮啮合齿侧间隙的检测与调整.doc VIP
- 青花瓷 完美演奏版 周杰伦 钢琴谱 数字 简谱.pdf VIP
- 第38届物理竞赛决赛实验考试答题纸 .pdf VIP
- 现代医药物流交易的配送中心建设项目可行性研究报告.doc VIP
- 2025-2026学年初中生物学人教版2024八年级上册-人教版2024教学设计合集.docx
- 养生馆卫生管理制度(3篇).docx
- 健康管理师课件第一章--健康管理概论.ppt VIP
- JBT 4333.4-2013 厢式压滤机和板框压滤机 第4部分:隔膜滤板.pdf VIP
- 电信反诈骗演讲稿模板5篇.docx VIP
- 基于光纤布拉格光栅的温度测量系统设计与应用.docx VIP
文档评论(0)