- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DataX_命令行使用说明.doc
DataX 命令行
使用手册
版本号 修改内容 修改日期 修改人 V0.1 创建 2010-11-17 巴真 V0.2 修改生成xml方式 2011-09-15 何健超 V0.3 根据新版重写 2012-08-21 巴真
目 录
1 产品介绍 4
2. 软件的安装及卸载 5
2.1软件的运行环境 5
2.2 软件的安装 6
2.3软件卸载 6
3 有关DataX名词解释 8
4 DataX作业配置向导(以从Mysql导出数据到Oracle的作业配置为例) 9
5 DataX运行 12
5.1 DataX任务启动命令 12
5.2 DataX运行时添加参数定义 12
6 日志记录 13
6.1 日志路径 13
7 使用Tips 14
7.1 使用变量避免生成过多job配置文件 14
8 附加功能 16
8.1 Mysql数据库切换 16
9 技术支持 20
附一 DataX Job配置文件配置项清单 21
1 产品介绍
?
DataX是一个让你方便的在不同类型的数据库之间交换数据的工具。它与Dbsync共同组成了数据平台的数据移动解决方案。
目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出,且只能支持一个或者几个特定类型的数据库。这样带来的一个问题是,如果我们拥有很多不同类型的数据(Mysql/Oracle/Rac/Hive/Other…),并且经常需要在它们之间导入导出数据,那么我们可能需要开发/维护/学习使用一批这样的工具(jdbcdump/dbReader/multithread/getmerge+sqlReader/mysqldumper)。而且,此后每增加一种库类型,我们需要的工具数目将程几何级别增长。(当我们需要将mysql的数据导入oracle的时候,有没有过想从jdbcdump和dbReader上各掰下来一半拼在一起到冲动?) 这些工具有些使用文件中转数据,有些使用管道,不同程度的为数据中转带来额外开销,效率差别非常大。很多工具也无法满足ETL任务中常见的需求,比如日期格式转化,特性字符的转化,编码转换。另外,有些时候,我们希望在一个很短的时间窗口内,将一份数据从一个数据库同时导出到多个不同类型的数据库。
DataX正是为了解决这些问题而生。
2. 软件的安装及卸载
软件的运行环境
系统要求:
首先请确认安装DataX的机器能够连上yum源
DataX 主要由Java和python开发,请确保安装DataX的机器上Java =1.6, python = 2.6,如下图:
测试Java 版本
测试python版本
其他软件要求:
如果需要使用oraclewriter,请确保已经安装oracle客户端,可以使用sqlplus进行测试,如果能够正常启动sqlplus,并连接到目的数据库,表示Oracle客户端连接ok,如下图
如果使用的是HdfsReader/HdfsWriter,请确保安装DataX的机器已经安装上了Hdfs客户端,并能够正常访问Hdfs文件系统,例如使用命令行: hadoop fs -ls /
同时请确保在执行DataX的用户/home目录下,链接Hadoop config目录文件,例如在用户目录下执行
ln -s /home/$user/config hadoop-configure-目录
2.2 软件的安装
下列步骤请确保已在系统上配置淘宝yum源,具体的配置请咨询相关的SA。
执行如下命令
sudo yum install t_dp_dw_datax_core_all -b current
该命令将安装最新DataX engine以及所有开发的DataX插件包。
2.3软件卸载
执行如下命令
sudo yum remove t_dp_dw_datax_core_all
该命令将删除DataX包,其上所有的依赖包(插件包)都将会删除。
3 有关DataX名词解释
DataX: DataX是一个让你方便的在不同类型的数据库之间交换数据的工具。它与Dbsync共同组成了数据平台的数据移动解决方案。
Job: DataX将每个数据导入导出任务称为一个Job,每个Job逻辑上都有一份XML文件用来描述该Job的参数信息
Reader: DataX将数据交换的工作分为Reader和Writer,其中Reader负责从来源数据库(或hdfs)读取数据,负责读取数据的线程称之为Reader
Writer: DataX将数据交换的工作分为Reader和Writer,其中Writer负责写入数据到目的数据库(或hdfs
您可能关注的文档
最近下载
- 2025年高分子物理(第五版)课后习题答案.pdf VIP
- 《认知发展与学习机制》课件.ppt VIP
- 图软公司产品介绍的.ppt VIP
- 中考数学考点练习题22 相似三角形【原卷版】.pdf VIP
- 第一单元第3课《旅程的灵感》教学设计 2025湘美版美术八年级上册.docx
- 7.大华综合监控管理平台一体机dh-dss7016-d新.pdf VIP
- 第15课《中国工农红军长征与遵义会议》课件 统编版历史八年级上册.pptx VIP
- 微信小程序开发项目教程PPT完整全套教学课件.pptx VIP
- (高清版)B/T 12230-2023 通用阀门 不锈钢铸件技术条件.pdf VIP
- 屠宰企业宰前、屠宰过程及宰后检验流程要点和检验制度汇编-生猪.doc VIP
原创力文档


文档评论(0)