DataX安装及实例解析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DataX安装及实例解析

Python安装DataX 主要由Java和python开发,所以需要确保服务器上安装有Java=1.6,python=2.6由于linux os本身自带的python 版本比较低,需要安装一个新版本的python.下载python2.6.9版本本次安装将python安装包放在服务器 /opt/ 路径下,视环境而定。解压python命令Putty工具连接到服务器,切换至/opt 目录下,执行以下命令:?tar xzf Python-2.6.9.tgz? ?cd Python-2.6.9编译安装python命令本示例python文件解压缩后的路径是 /opt/python2.6.9 仅供参考Putty工具连接到服务器,切换至/opt/python2.6.9 目录下,执行以下命令安装./configure --prefix=/opt/python2.6.9? ? make make install创建一个python2.6的连接ln -sf ?/opt/python2.6.9/bin/python2.6 ?/usr/bin/python2.6DataX安装方式一:下载DataX源码,自己编译:源码地址:/alibaba/DataXMaven构建$ cd {DataX_source_code_home}$ mvn -U clean package assembly:assembly -Dmaven.test.skip=true打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:$ cd {DataX_source_code_home}$ ls ./target/datax/datax/bin conf job lib log log_perf plugin script tmp将target/datax 下的 datax 目录放到服务器上 方式二:直接下载DataX工具包工具包:datax.tar.gz 753M大小下载后解压至服务器某个目录,修改权限为755,进入bin目录,即可运行样例同步作业以下分别是解压缩,赋权限,及运行样例同步作业命令$ tar zxvf datax.tar.gz$ sudo chmod -R 755 {YOUR_DATAX_HOME}$ cd {YOUR_DATAX_HOME}/bin$ python datax.py ../job/job.json00服务器上DataX目录:opt/dataxDataX其他软件要求如果要使用Oracle,请确保已经安装oracle客户端如果使用HDFS,需要确保hadoop命令行可用;同时请确保在执行DataX的用户/home目录下,链接Hadoop config目录文件,在用户目录下执行: ln? -s? /home/$user/config? hadoop-configure-目录DataX概述DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换,由淘宝数据平台部门完成。?DataX插件分为Reader和Writer两类。Reader负责从数据源端读取数据到Storage(交换空间),Writer负责将Storage中的数据写入到数据目的端。Storage可以适配不同种类的Reader和Writer,从而实现数据同步.目前DataX版本已经提供的Reader插件如下:??hdfsreader?:?支持从hdfs文件系统获取数据。?mysqlreader:?支持从mysql数据库获取数据。??sqlserverreader:?支持从sqlserver数据库获取数据。?oraclereader?:?支持从oracle数据库获取数据。??streamreader:?支持从stream流获取数据(常用于测试)?httpreader?:?支持从http?URL获取数据。??提供的Writer插件如下:??hdfswriter?:支持向hdbf写入数据。? mysqlwriter?:支持向mysql写入数据。??sqlserverwriter:支持向sqlserver写入数据。? oraclewriter?:支持向oracle写入数据。?streamwriter?:支持向stream流写入数据。(常用于测试)DataX 3.0每一种读插件都有一种或多种切分策略,都能将作业合理切分成多个Task并行执行,单机多线程执行模型可以让DataX速度随并发成线性增长。在源端和目的端性能都足够的情况下,单个作业一定可以

文档评论(0)

little28 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档