概述

:::tips 全量同步和增量同步的区别：

全量同步：master将完整内存数据生成RDB，发送RDB到slave。后续命令则记录在repl_baklog，逐个发送给slave
增量同步：slave提交自己的offset到master，master获取repl_baklog中从offset之后的命令给slave

执行全量同步的时机：

slave节点第一次连接master节点
slave节点断开时间太久，repl_baklog中的offset已经被覆盖

执行增量同步的时机：

slave节点断开又恢复，并且在repl_baklog中能找到offset :::
全量同步
:::tips Redis主从实例第一次建立连接时，会执行全量同步，将master节点的所有数据都拷贝给slave节点

master知道salve是第一次连接的判断依据：

Replication Id：简称replid，是数据集的唯一标记，如果一致则说明是同一个数据集。每一个master都有唯一的replid，slave则会继承master节点的replid
offset：偏移量，随着记录在repl_baklog中的数据增多而逐渐增大，slave完成同步时也会记录当前同步的offset，如果slave的offset小于master的offset，说明slave数据落后于master，需要更新数据

因此slave做数据同步，必须向master发送自己的replication id和offset，master才可以判断到底需要同步哪些数据

因为slave原本也是一个master，有自己的replid和offset，当第一次变成slave，与master建立连接时，发送的replid和offset是自己的replid和offset。master判断发现slave发送来的replid与自己的不一致，说明这是一个全新的slave，就知道要做全量同步，master会将自己的replid和offset都发送给这个slave，slave保存这些信息，以后slave的replid就与master保持一致了，因此master判断一个节点是否是第一次同步的依据，就是看replid是否一致

完整流程：

slave节点请求增量同步
master节点判断replid，发现不一致，拒绝增量同步
master将完整内存数据生成RDB，发送RDB到slave
slave清空本地数据，加载master的RDB
master将slave在RDB期间的命令持续记录在repl_baklog，然后等待slave加载完RDB文件后再持续将repl_baklog中的命令发送给slave
slave执行接收到的命令，保持与master之间的同步 :::
增量同步
:::tips 全量同步需要先做RDB，然后将RDB文件通过网络传输给slave，成本太高了。因此除了第一次做全量同步，其它大多数时候slave与master都是做增量同步，只更新slave与master存在差异的部分数据

master怎么知道slave与自己的数据差异在哪里呢？这就要靠repl_baklog文件了，这个文件是一个固定大小的数组，只不过数组是环形，也就是说角标到达数组末尾后，会再次从0开始读写，这样数组头部的数据就会被覆盖

repl_baklog文件中会记录Redis处理过的命令日志及offset，包括master当前的offset，和slave已经拷贝到的offset，slave与master的offset之间的差异，就是salve需要增量拷贝的数据了

随着不断有数据写入，master的offset逐渐变大，slave也不断的拷贝，追赶master的offset

直到数组被填满，此时如果有新的数据写入，就会覆盖数组中的旧数据，不过旧的数据只要是绿色的，说明是已经被同步到slave的数据，即便被覆盖了也没什么影响，因为未同步的仅仅是红色部分

但是，如果slave出现网络故障或者宕机，下线时间过长，导致master的offset远远超过了slave的offset。如果master继续写入新数据，其offset就会覆盖旧的数据，直到将slave现在的offset也覆盖

棕色框中的红色部分，就是尚未同步但是却已经被覆盖的数据，如果此时slave恢复需要同步数据，却发现自己的offset都没有了，就无法再完成增量同步，只能做全量同步

:::

SpringCloud笔记

主从数据同步原理

概述

全量同步

增量同步