1. 资源规划

组件 bigdata-hk-node1 bigdata-hk-node2 bigdata-hk-node3
OS centos7.6 centos7.6 centos7.6
JDK jvm jvm jvm
Python python-2.6 N.A N.A
DataX datax N.A N.A

2. 安装介质

版本:datax-3.tar.gz
下载:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

3. 环境准备

  • 安装JDK(v1.8+)

参考:《CentOS7.6-安装JDK-1.8.221

  • 安装Python(v2.6+,推荐安装v2.7.x版本)

参考:《CentOS7.6-安装Python-2.7.12
说明:操作系统若自带Python且符合要求,则不建议自行安装新的Python环境(生产环节一般禁止使用make指令,进行编译安装操作),CentOS-7.6默认安装Python-2.7.5。

4. 安装DataX

  1. cd /share
  2. tar -zxvf datax-3.tar.gz -C /opt/module/

5. DataX自检

  1. cd /opt/module/datax/bin
  2. python datax.py ../job/job.json

正常输出:

  1. [job-0] INFO StandAloneJobContainerCommunicator - Total 100000 records, 2600000 bytes
  2. | Speed 253.91KB/s, 10000 records/s | Error 0 records, 0 bytes
  3. | All Task WaitWriterTime 0.093s | All Task WaitReaderTime 0.151s | Percentage 100.00%
  4. [job-0] INFO JobContainer -
  5. 任务启动时刻 : 2021-11-22 08:20:03
  6. 任务结束时刻 : 2021-11-22 08:20:13
  7. 任务总计耗时 : 10s
  8. 任务平均流量 : 253.91KB/s
  9. 记录写入速度 : 10000rec/s
  10. 读出记录总数 : 100000
  11. 读写失败总数 : 0