1. 资源规划
组件 | bigdata-hk-node1 | bigdata-hk-node2 | bigdata-hk-node3 |
---|---|---|---|
OS | centos7.6 | centos7.6 | centos7.6 |
JDK | jvm | jvm | jvm |
Python | python-2.6 | N.A | N.A |
DataX | datax | N.A | N.A |
2. 安装介质
版本:datax-3.tar.gz
下载:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
3. 环境准备
- 安装JDK(v1.8+)
- 安装Python(v2.6+,推荐安装v2.7.x版本)
参考:《CentOS7.6-安装Python-2.7.12》
说明:操作系统若自带Python且符合要求,则不建议自行安装新的Python环境(生产环节一般禁止使用make
指令,进行编译安装操作),CentOS-7.6默认安装Python-2.7.5。
4. 安装DataX
cd /share
tar -zxvf datax-3.tar.gz -C /opt/module/
5. DataX自检
cd /opt/module/datax/bin
python datax.py ../job/job.json
正常输出:
[job-0] INFO StandAloneJobContainerCommunicator - Total 100000 records, 2600000 bytes
| Speed 253.91KB/s, 10000 records/s | Error 0 records, 0 bytes
| All Task WaitWriterTime 0.093s | All Task WaitReaderTime 0.151s | Percentage 100.00%
[job-0] INFO JobContainer -
任务启动时刻 : 2021-11-22 08:20:03
任务结束时刻 : 2021-11-22 08:20:13
任务总计耗时 : 10s
任务平均流量 : 253.91KB/s
记录写入速度 : 10000rec/s
读出记录总数 : 100000
读写失败总数 : 0