数据同步 - 新闻数据中台中的优化 - 《大数据》

数据同步方式很多，此次讨论不包括桌面应用方面同步工具（如：kettle）

数据同步v1.0
使用Sqoop进行sqlserver数据源同步到Hbase，以sqlserver的表主见id作为Hbase表rowkey字段。
优点：

缺点：

主要用于基于HDFS和关系性数据库之间的数据同步，支持的数据源不如DataX丰富，基于未来的数据中台考虑，不太适合；
任务调度还是基于LInux的cron（写好Sqoop的.sh脚本，然后linux调度），需要额外管理。另外离线作业调度必须先数据同步再计算，此处两个任务调度没有同步机制约束；

数据同步v2.0
使用DataX替换Sqoop，实时计算那块接入的第二个项目是mysql作为业务数据库，使用cannal进行实时同步；
优点：

缺点：

数据同步v3.0
使用Spark SQL，跑批作业替代DataX；数据实时同步方案，如果是非Mysql的话，需要业务数据库进行数据增删消息投递到Kafka；
优点：