1. 资源规划
| 组件 | bigdata-hk-node1 | bigdata-hk-node2 | bigdata-hk-node3 |
|---|---|---|---|
| OS | centos7.6 | centos7.6 | centos7.6 |
| JDK | jvm | jvm | jvm |
| Python | python-2.6 | N.A | N.A |
| DataX | datax | N.A | N.A |
2. 安装介质
版本:datax-3.tar.gz
下载:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
3. 环境准备
- 安装JDK(v1.8+)
- 安装Python(v2.6+,推荐安装v2.7.x版本)
参考:《CentOS7.6-安装Python-2.7.12》
说明:操作系统若自带Python且符合要求,则不建议自行安装新的Python环境(生产环节一般禁止使用make指令,进行编译安装操作),CentOS-7.6默认安装Python-2.7.5。
4. 安装DataX
cd /sharetar -zxvf datax-3.tar.gz -C /opt/module/
5. DataX自检
cd /opt/module/datax/binpython datax.py ../job/job.json
正常输出:
[job-0] INFO StandAloneJobContainerCommunicator - Total 100000 records, 2600000 bytes| Speed 253.91KB/s, 10000 records/s | Error 0 records, 0 bytes| All Task WaitWriterTime 0.093s | All Task WaitReaderTime 0.151s | Percentage 100.00%[job-0] INFO JobContainer -任务启动时刻 : 2021-11-22 08:20:03任务结束时刻 : 2021-11-22 08:20:13任务总计耗时 : 10s任务平均流量 : 253.91KB/s记录写入速度 : 10000rec/s读出记录总数 : 100000读写失败总数 : 0
