- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据导入与预处理应用-第三章数据的导入与导出
目于文件的数据导入与导出基于数据库的数据导入与导出基于Web的数据导入与导出基于CDC变更的数据导入与导出
内容简介1在数据开发项目中,数据的导入与导出是一项基本的工作,也是一项重要的工作,需要从复杂多样化的数据源中抽取数据,经过转换后,以指定的文件格式导出到指定的存储空间进行数据的发布。幸运的是,Kettle提供了一系列的输入、输出步骤来完成这些工作。对于每个步骤的具体使用说明,可以双击该步骤,在弹出的步骤配置弹框中,单击“help”按钮进行查看。尽管这些步骤覆盖了Kettle的大部分数据导入与导出的功能,但也并不是所有的功能,在某些特定的场景下,往往需要ETL工程师进行编程实现数据的导入与导出处理。
内容简介在本章,我们将通过一些案例,分类的学习如何利用这些输入类的步骤获取不同来源、不同类型的数据,并利用输出类的步骤直接导出数据进行查看和分析。在这些案例的操作指导中,我们将简化描述案例的操作过程,我们将从转换的输入输出需求、转换的设计和步骤的参数配置这3个方面描述案例的操作,关于具体的可视化编程过程,读者可参考第2章的2.2.2的案例。我们将按以下4种场景学习数据的导入与导出:基于文件的数据导入与导出Kettle的安装基于数据库的数据导入与导出基于Web的数据导入与导出Kettle的安装基于CDC变更的数据导入与导出1234
01基于文件的数据导入与导出
基于文件的数据导入与导出ETL。。。
基于文件的数据导入与导出1分割符文件2固定宽度文件在这种文件里,每个字段或列都有特定字符或制表符分割。每个字段或列都有指定的宽度或长度。
基于文件的数据导入与导出为了能正确的读取这两种文件,我们需要在输入类的步骤中选择文字编码。查看文件的字符编码方法比较多,较方便的一种方法就是用IE浏览器查看。打开IE浏览器,把文件拖放在IE浏览器上显示。然后,右键单击文件,在右键菜单上选择“编码(E)”,在旁边的弹框中将看到此文件的编码。
基于文件的数据导入与导出最基本的文本文件输入步骤就是“CSV文件输入”步骤。CSV文件是一种用分隔符分割的文本文件。在处理这种文件之前,需要通过文本编辑器打开查看,以确定此文件的分隔符和字段。“CSV文件输入”步骤和与之类似的“固定宽度文件输入”步骤其实都是“文本文件输入”步骤的简化版,都不适合一次处理多个文件。这三个步骤是处理文本文件的首选步骤。
基于文件的数据导入与导出“文本文件输入”的功前一个步骤读取文件名读取多个文件读取压缩文件不用指定文件结构指定逃逸字符错误处理过滤本地化日期格式
文件的导入与导出案例1(1)转换的输入输出需求读入student.csv文件,输出固定宽度为12字节的student.txt文件。student.csv文件以逗号为分隔符
文件的导入与导出案例1期望输出的student.txt文件内容
文件的导入与导出案例1(2)转换的设计图参考第2章2.2.2节的操作,新建转换文件,并开始可视化编程。其中,“固定宽度文本文件输出”为“文本文件输出”步骤。
文件的导入与导出案例1(3)步骤的配置“CSV文件输入”的配置:点击“浏览(B)…”按钮,选择student.csv文件作为输入文件来处理。“列分隔符”选择了逗号(,),因为用文本编辑器打开student.csv文件,可以看到此文件的分隔符是逗号。勾选“包含列头行”,表示此文件的第一行作为字段,不在后续输出流中输出。点击“获取字段”,在此步骤的字段列表中选择出此文件的8个字段。
文件的导入与导出案例1“固定宽度文本文件输出”的配置点击“浏览(B)”按钮,选择在路径“E:\教材案例\第3章”中输出名为student的文件。文件的后缀名在“扩展名”中指定为txt文本文件。
文件的导入与导出案例1“分隔符”配置为空,因为我们需要输出没有分隔符的文件。“格式”选择“CR+LFterminated(Windows,DOS)”,因为此转换在Windows下运行,文件换行的字符是回车换行符。
文件的导入与导出案例1点击“获取字段”按钮,在字段列表上选择出此文件的所有字段。然后,在各个字段的“长度”中,输入“12”,表示每个输出字段的长度为12字节。
文件的导入与导出案例1点击运行按钮,在弹出的对话框中点击启动按钮,将在路径“E:\教材案例\第3章”中输出名为student.txt的文件
文件的导入与导出案例2(1)转换的输入输出需求读入固定宽度的student.txt文件,输出分隔符为分号(;)的stu.txt文件。student.txt为本章案例1的输出文件
文件的导入与导出案例2期望输出的stu.txt文件内容
文件的导入与导出案例2(2)转换的设
您可能关注的文档
- 《数据导入与预处理应用》第4章 - 01 - 数据清洗概述.ppt
- 《数据导入与预处理应用》第4章 - 02 - 数据排重.ppt
- 《数据导入与预处理应用》第4章 - 03 - 使用脚本组件进行数据清理.ppt
- 2025年一级建造师《工程法规》教材新增考点归纳.pdf
- 2025年一级建造师《工程经济》教材新增考点归纳.pdf
- 2025年一级建造师《机电工程》教材新增考点归纳.pdf
- 2025年一级建造师《建筑工程》教材新增考点归纳.pdf
- 2025年一级建造师《市政工程》教材新增考点归纳.pdf
- 2025年一级建造师《项目管理》教材新增考点归纳.pdf
- Python游戏设计案例实战Python基础知识.ppt
文档评论(0)