数据同步概念
数据同步是指将数据从关系型数据库同步到大数据的存储系统中,针对不同类型的表应该有不同的同步策略。
涉及表类型
包括:
- 每日全量表:存储完整的数据。
- 每日增量表:存储新增加的数据。
- 每日新增及变化表:存储新增加的数据和变化的数据。
- 拉链表:对新增及变化表进行定期合并。
数据同步策略
包含以下几种策略:每日全量同步策略
指每天存储一份完整数据作为一个分区。
适用于:表数据量不大,且每天会有新数据插入,又有旧数据修改的场景。每日增量同步策略
指每天存储一份增量数据作为一个分区。
适用于:表数据量大,且每天有新数据插入。新增及变化策略
指只同步每日新增及变化数据。利用每日新增及变化表,制作拉链表,可以快速获取某个时间切片的快照数据。
适用于:表数据量大,有新增也有修改,但修改频率不高的场景。特殊维度同步策略
可不遵循以上数据同步策略,可从客观世界维度和日期维度等维度进行数据同步。