数据同步概念

数据同步是指将数据从关系型数据库同步到大数据的存储系统中,针对不同类型的表应该有不同的同步策略。

涉及表类型

包括:

  1. 每日全量表:存储完整的数据。
  2. 每日增量表:存储新增加的数据。
  3. 每日新增及变化表:存储新增加的数据和变化的数据。
  4. 拉链表:对新增及变化表进行定期合并。

    数据同步策略

    包含以下几种策略:

    每日全量同步策略

    指每天存储一份完整数据作为一个分区。
    适用于:表数据量不大,且每天会有新数据插入,又有旧数据修改的场景。

    每日增量同步策略

    指每天存储一份增量数据作为一个分区。
    适用于:表数据量大,且每天有新数据插入。

    新增及变化策略

    指只同步每日新增及变化数据。利用每日新增及变化表,制作拉链表,可以快速获取某个时间切片的快照数据。
    适用于:表数据量大,有新增也有修改,但修改频率不高的场景。

    特殊维度同步策略

    可不遵循以上数据同步策略,可从客观世界维度和日期维度等维度进行数据同步。