DataX_命令行使用说明.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DataX_命令行使用说明.doc

DataX 命令行 使用手册 版本号 修改内容 修改日期 修改人 V0.1 创建 2010-11-17 巴真 V0.2 修改生成xml方式 2011-09-15 何健超 V0.3 根据新版重写 2012-08-21 巴真 目 录 1 产品介绍 4 2. 软件的安装及卸载 5 2.1软件的运行环境 5 2.2 软件的安装 6 2.3软件卸载 6 3 有关DataX名词解释 8 4 DataX作业配置向导(以从Mysql导出数据到Oracle的作业配置为例) 9 5 DataX运行 12 5.1 DataX任务启动命令 12 5.2 DataX运行时添加参数定义 12 6 日志记录 13 6.1 日志路径 13 7 使用Tips 14 7.1 使用变量避免生成过多job配置文件 14 8 附加功能 16 8.1 Mysql数据库切换 16 9 技术支持 20 附一 DataX Job配置文件配置项清单 21 1 产品介绍 ? DataX是一个让你方便的在不同类型的数据库之间交换数据的工具。它与Dbsync共同组成了数据平台的数据移动解决方案。 目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出,且只能支持一个或者几个特定类型的数据库。这样带来的一个问题是,如果我们拥有很多不同类型的数据(Mysql/Oracle/Rac/Hive/Other…),并且经常需要在它们之间导入导出数据,那么我们可能需要开发/维护/学习使用一批这样的工具(jdbcdump/dbReader/multithread/getmerge+sqlReader/mysqldumper)。而且,此后每增加一种库类型,我们需要的工具数目将程几何级别增长。(当我们需要将mysql的数据导入oracle的时候,有没有过想从jdbcdump和dbReader上各掰下来一半拼在一起到冲动?) 这些工具有些使用文件中转数据,有些使用管道,不同程度的为数据中转带来额外开销,效率差别非常大。很多工具也无法满足ETL任务中常见的需求,比如日期格式转化,特性字符的转化,编码转换。另外,有些时候,我们希望在一个很短的时间窗口内,将一份数据从一个数据库同时导出到多个不同类型的数据库。 DataX正是为了解决这些问题而生。 2. 软件的安装及卸载 软件的运行环境 系统要求: 首先请确认安装DataX的机器能够连上yum源 DataX 主要由Java和python开发,请确保安装DataX的机器上Java =1.6, python = 2.6,如下图: 测试Java 版本 测试python版本 其他软件要求: 如果需要使用oraclewriter,请确保已经安装oracle客户端,可以使用sqlplus进行测试,如果能够正常启动sqlplus,并连接到目的数据库,表示Oracle客户端连接ok,如下图 如果使用的是HdfsReader/HdfsWriter,请确保安装DataX的机器已经安装上了Hdfs客户端,并能够正常访问Hdfs文件系统,例如使用命令行: hadoop fs -ls / 同时请确保在执行DataX的用户/home目录下,链接Hadoop config目录文件,例如在用户目录下执行 ln -s /home/$user/config hadoop-configure-目录 2.2 软件的安装 下列步骤请确保已在系统上配置淘宝yum源,具体的配置请咨询相关的SA。 执行如下命令 sudo yum install t_dp_dw_datax_core_all -b current 该命令将安装最新DataX engine以及所有开发的DataX插件包。 2.3软件卸载 执行如下命令 sudo yum remove t_dp_dw_datax_core_all 该命令将删除DataX包,其上所有的依赖包(插件包)都将会删除。 3 有关DataX名词解释 DataX: DataX是一个让你方便的在不同类型的数据库之间交换数据的工具。它与Dbsync共同组成了数据平台的数据移动解决方案。 Job: DataX将每个数据导入导出任务称为一个Job,每个Job逻辑上都有一份XML文件用来描述该Job的参数信息 Reader: DataX将数据交换的工作分为Reader和Writer,其中Reader负责从来源数据库(或hdfs)读取数据,负责读取数据的线程称之为Reader Writer: DataX将数据交换的工作分为Reader和Writer,其中Writer负责写入数据到目的数据库(或hdfs

文档评论(0)

dmz158 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档