- 1、本文档共106页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据ETL技术方案目录1 ETL介绍12 ETL工具介绍22.1 Kettle22.1.1 Kettle介绍22.1.2 Kettle连接各种数据源42.2 Sqoop工具使用(不需要安装orc客户端)212.2.1 简介212.2.2 Oracle导入到Hadoop222.3 OratoMPP工具使用(Oracle数据库到文件)232.3.1 简介232.3.2 Oracle客户端安装242.3.3 OratoMPP使用372.4 数据库自带工具抽取数据(数据库到文件)392.4.1 SQL SERVER 使用Microsoft SQL Server Management Studio工具392.4.2 Mysql 数据导出452.4.3 PostgreSQL 数据导出452.5 数据加载(文件到数据库)462.5.1 MPP数据加载462.5.2 HDFS 数据加载472.5.3 Hive 数据加载473 场景483.1 结构化全量数据导入到MPP中483.1.1 Kettle表到表导入493.1.2 Kettle表到文本再到表导入523.1.3 Kettle表到文本再使用dispath导入583.1.4 MPP工具OratoMPP和dispath导入623.2 结构化增量数据导入到MPP中643.2.1 增量数据导入653.2.2 Updata(修改)数据导入693.2.3 文本数据自动更新导入703.3 ETL数据到Hadoop723.3.1 结构化数据导入723.3.2 非结构化数据导入883.3.3 增量数据导入884 FAQ894.1 MPP工具获取方法894.2 如何获取SQL建表语句904.3 kettle 遇到错误就会中断的解决方法914.4 SQL Server 数据导出UTF-8出错934.5 换行符问题944.6 MPP数据类型944.6.1 数值类型944.6.2 字符类型974.6.3 二进制数据类型994.6.4 日期和时间类型99ETL介绍ETL 方法可分为两大类方法一:优点:一:数据不落地,直接从源导入到目标,使用JDBC连接只要有JDBC驱动即可,连接方式较为简单二:建立ETL规则针对每一条数据,做数据验证清理三:在有增量抽取的前提下(数据有时间戳可判断哪些是增量),可通过建立规则达到增量抽取,并且易于定时处理缺点: 一:大规模抽取速度远不如原生抽取工具,简单举例子可能ETL每秒可能只能出去10M到30M,而方法二可抽取100M以上的数据,相差10倍以上方法二:优点:一:抽取性能以及加载性能由于使用原生态工具,直接使用底层C API接口,远快于JDBC等ETL工具的速度,适合首次大数据量迁移二:开发能力强可适当通过程序手段控制抽取和加载工具,可实现数据的高速抽取加载以及增量抽取和数据清理缺点:一:数据要落地为文本文档,增加一点数据迁移时间,所以上面只出最好是大数据量首次加载二:对常用数据库的数据迁移工具要有一定的了解,如Oracle数据库需要安装客户端才可以使用高速的导出工具,对没有安装过的人有一定的难度ETL工具介绍KettleKettle介绍什么是SpoonKettle是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写。这意味着它被设计用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据。Spoon是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan工具来运行,任务是用Kitchen来运行。Pan是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。安装目前大数据软件DataEngine-V100R001B01D006SP2最新版本已经集成了Kettle工具,部署DataEngine 平台时候可以选择Kettle组件,自动完成安装。如果要运行在其它主机上,软件版本可以从公司FTP上下载。注意:如果运行在其它主机上,必须安装Sun公司的JAVA运行环境1.4或者更高版本,相关资源你可以从上下载。运行SpoonDataEngine平台:通过xshell后台直接运行Kettle就可以启动。运行在非DataEngine平台:下面是在不同的平台上运行Spoon所支持的脚本:Spoon.bat:在windows平台运行Spoon。Spoon.sh: 在Linux、Apple OSX、Solaris平台运行Spoon。资源库一个Kettle资源库可以包含那些转换信息,这意味着为了从数据库资源中加载一个转换,你必须连接相应的资源库。要实现这些,你需要在资源库中定义一个数据库连接,你可以在Spoon启动的时候,利用资
文档评论(0)