DataX安装及实例解析.docxVIP

下载本文档

688
0
约1.05万字
约 19页
2017-01-23 发布于湖北
举报
版权申诉

DataX安装及实例解析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DataX安装及实例解析

Python安装DataX 主要由Java和python开发，所以需要确保服务器上安装有Java=1.6,python=2.6由于linux os本身自带的python 版本比较低，需要安装一个新版本的python.下载python2.6.9版本本次安装将python安装包放在服务器 /opt/ 路径下，视环境而定。解压python命令Putty工具连接到服务器，切换至/opt 目录下，执行以下命令：?tar xzf Python-2.6.9.tgz? ?cd Python-2.6.9编译安装python命令本示例python文件解压缩后的路径是 /opt/python2.6.9 仅供参考Putty工具连接到服务器，切换至/opt/python2.6.9 目录下，执行以下命令安装./configure --prefix=/opt/python2.6.9? ? make make install创建一个python2.6的连接ln -sf ?/opt/python2.6.9/bin/python2.6 ?/usr/bin/python2.6DataX安装方式一：下载DataX源码，自己编译：源码地址：/alibaba/DataXMaven构建$ cd {DataX_source_code_home}$ mvn -U clean package assembly:assembly -Dmaven.test.skip=true打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ，结构如下：$ cd {DataX_source_code_home}$ ls ./target/datax/datax/bin conf job lib log log_perf plugin script tmp将target/datax 下的 datax 目录放到服务器上方式二：直接下载DataX工具包工具包：datax.tar.gz 753M大小下载后解压至服务器某个目录，修改权限为755，进入bin目录，即可运行样例同步作业以下分别是解压缩，赋权限，及运行样例同步作业命令$ tar zxvf datax.tar.gz$ sudo chmod -R 755 {YOUR_DATAX_HOME}$ cd {YOUR_DATAX_HOME}/bin$ python datax.py ../job/job.json00服务器上DataX目录：opt/dataxDataX其他软件要求如果要使用Oracle,请确保已经安装oracle客户端如果使用HDFS,需要确保hadoop命令行可用;同时请确保在执行DataX的用户/home目录下，链接Hadoop config目录文件，在用户目录下执行: ln? -s? /home/$user/config? hadoop-configure-目录DataX概述DataX是一个在异构的数据库/文件系统之间高速交换数据的工具，实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem）之间的数据交换，由淘宝数据平台部门完成。?DataX插件分为Reader和Writer两类。Reader负责从数据源端读取数据到Storage（交换空间），Writer负责将Storage中的数据写入到数据目的端。Storage可以适配不同种类的Reader和Writer，从而实现数据同步.目前DataX版本已经提供的Reader插件如下：??hdfsreader?:?支持从hdfs文件系统获取数据。?mysqlreader:?支持从mysql数据库获取数据。??sqlserverreader:?支持从sqlserver数据库获取数据。?oraclereader?:?支持从oracle数据库获取数据。??streamreader:?支持从stream流获取数据（常用于测试）?httpreader?:?支持从http?URL获取数据。??提供的Writer插件如下：??hdfswriter?：支持向hdbf写入数据。? mysqlwriter?：支持向mysql写入数据。??sqlserverwriter：支持向sqlserver写入数据。? oraclewriter?：支持向oracle写入数据。?streamwriter?：支持向stream流写入数据。（常用于测试）DataX 3.0每一种读插件都有一种或多种切分策略，都能将作业合理切分成多个Task并行执行，单机多线程执行模型可以让DataX速度随并发成线性增长。在源端和目的端性能都足够的情况下，单个作业一定可以