大数据ETL技术方案1.docx

PAGE iv 大数据ETL技术方案 目 录 TOC \o 1-3 \h \z \u 1 ETL介绍 1 2 ETL工具介绍 2 2.1 Kettle 2 2.1.1 Kettle介绍 2 2.1.2 Kettle连接各种数据源 4 2.2 Sqoop工具使用(不需要安装orc客户端) 21 2.2.1 简介 21 2.2.2 Oracle导入到Hadoop 22 2.3 OratoMPP工具使用(Oracle数据库到文件) 23 2.3.1 简介 23 2.3.2 Oracle客户端安装 24 2.3.3 OratoMPP使用 37 2.4 数据库自带工具抽取数据(数据库到文件) 39 2.4.1 SQL SERVER 使用Microsoft SQL Server Management Studio工具 39 2.4.2 Mysql 数据导出 45 2.4.3 PostgreSQL 数据导出 45 2.5 数据加载(文件到数据库) 46 2.5.1 MPP数据加载 46 2.5.2 HDFS 数据加载 47 2.5.3 Hive 数据加载 47 3 场景 48 3.1 结构化全量数据导入到MPP中 48 3.1.1 Kettle表到表导入 49 3.1.2 Kettle表到文本再到表导入 52 3.1.3 Kettle表到文本再使用dispath导入 58 3.1.4 MPP工具OratoMPP和dispath导入 62 3.2 结构化增量数据导入到MPP中 64 3.2.1 增量数据导入 65 3.2.2 Updata(修改)数据导入 69 3.2.3 文本数据自动更新导入 70 3.3 ETL数据到Hadoop 72 3.3.1 结构化数据导入 72 3.3.2 非结构化数据导入 88 3.3.3 增量数据导入 88 4 FAQ 89 4.1 MPP工具获取方法 89 4.2 如何获取SQL建表语句 90 4.3 kettle 遇到错误就会中断的解决方法 91 4.4 SQL Server 数据导出UTF-8出错 93 4.5 换行符问题 94 4.6 MPP数据类型 94 4.6.1 数值类型 94 4.6.2 字符类型 97 4.6.3 二进制数据类型 99 4.6.4 日期和时间类型 99 PAGE 100 ETL介绍 ETL 方法可分为两大类 方法一:优点: 一:数据不落地,直接从源导入到目标,使用JDBC连接只要有JDBC驱动即可,连接方式较为简单 二:建立ETL规则针对每一条数据,做数据验证清理 三:在有增量抽取的前提下(数据有时间戳可判断哪些是增量),可通过建立规则达到增量抽取,并且易于定时处理 缺点: 一:大规模抽取速度远不如原生抽取工具,简单举例子可能ETL每秒可能只能出去10M到30M,而方法二可抽取100M以上的数据,相差10倍以上 方法二:优点: 一:抽取性能以及加载性能由于使用原生态工具,直接使用底层C API接口,远快于JDBC等ETL工具的速度,适合首次大数据量迁移 二:开发能力强可适当通过程序手段控制抽取和加载工具,可实现数据的高速抽取加载以及增量抽取和数据清理 缺点: 一:数据要落地为文本文档,增加一点数据迁移时间,所以上面只出最好是大数据量首次加载 二:对常用数据库的数据迁移工具要有一定的了解,如Oracle数据库需要安装客户端才可以使用高速的导出工具,对没有安装过的人有一定的难度 ETL工具介绍 Kettle Kettle介绍 什么是Spoon Kettle是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写。这意味着它被设计用来帮助你实现你的ETTL需要:抽取、转换、装入和加载数据。 Spoon是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan工具来运行,任务是用Kitchen来运行。Pan是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen是一个可以运行利用XML或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。 安装 目前大数据软件DataEngine-V100R001B01D006SP2最新版本已经集成了Kettle工具,部署DataEngine 平台时候可以选择Kettle组件,自动完成安

文档评论(0)

1亿VIP精品文档

相关文档