主从复制
主从复制原理:
主库开启 binlog 日志,主库会生成一个 log dump 线程,用来给从库 i/o 线程传 binlog。
从库生成两个线程,一个 I/O 线程,一个 SQL 线程;i/o 线程去请求主库 的 binlog,并将得到的 binlog 日志写到 relay log(中继日志) 文件中;SQL 线程,会读取 relay log 文件中的日志,并解析成具体操作,来实现主从的操作一致,而最终数据一致;
读写分离
读写分离,基本的原理是让主数据库处理事务性增、改、删操作(INSERT、UPDATE、DELETE),而从数据库处理 SELECT 查询操作。数据库复制被用来把事务性操作导致的变更同步到集群中的从数据库。就搞一个主库,挂多个从库,然后我们就单单只是写主库,然后主库会自动把数据给同步到从库上去。一般情况下,主库可以挂 4-5 个从库
mysql 支持复制的类型:
1) 基于语句的复制。在服务器上执行 sql 语句,在从服务器上执行同样的语句,mysql 默认采用基于语句的复制,执行效率高。
2) 基于行的复制。把改变的内容复制过去,而不是把命令在从服务器上执行一遍。
3) 混合类型的复制。默认采用基于语句的复制,一旦发现基于语句无法精确复制时,就会采用基于行的复制。
复制的工作过程:
同上
根据主从复制的原理可知:
从库同步主库数据的过程是串行化的,也就是说主库上并行的操作,在从库上会串行执行。所以这就是一个非常重要的点了,由于从库从主库拷贝日志以及串行执行 SQL 的特点,在高并发场景下,从库的数据一定会比主库慢一些,是有延时的。所以经常出现,刚写入主库的数据可能是读不到的,要过几十毫秒,甚至几百毫秒才能读取到。
还有一个问题:如果主库宕机了,恰好数据还没同步到从库,这些数据可能就丢失了。
mysql 实际上在这一块有两个机制,一个是半同步复制,用来解决主库数据丢失问题;一个是并行复制,用来解决主从同步延时问题。
半同步复制
这个所谓半同步复制,semi-sync 复制,指的就是主库写入 binlog 日志之后,就会将强制此时立即将数据同步到从库,从库将日志写入自己本地的 relay log 之后,接着会返回一个 ack 给主库,主库接收到至少一个从库的 ack 之后才会认为写操作完成了。
并行复制
所谓并行复制,指的是从库开启多个线程,并行读取 relay log 中不同库的日志,然后并行重放不同库的日志,这是库级别的并行。
主从同步时延问题
所以实际上你要考虑好应该在什么场景下来用这个 mysql 主从同步,建议是一般在读远远多于写,而且读的时候一般对数据时效性要求没那么高的时候,用 mysql 主从同步
解决方案:
1:分库,分散压力,将一个主库拆分为 4 个主库,每个主库的写并发就 500/s,此时主从延迟可以忽略不计
2:在业务层和数据库之间使用 Redis 或 memcache,降低 mysql 读压力。
3:不同业务的数据库物理上放到不同的机器上。
4:打开 mysql 支持的并行复制,多个库并行复制,如果说某个库的写入并发就是特别高,单库写并发达到了 2000/s,并行复制还是没意义。28 法则,很多时候比如说,就是少数的几个订单表,写入了 2000/s,其他几十个表 10/s。但是问题是那是库级别的并行,所以有时候作用不是很大
5:重写代码,写代码的同学,要慎重,当时我们其实短期是让那个同学重写了一下代码,插入数据之后,直接就更新,不要查询
6:如果确实是存在必须先插入,立马要求就查询到,然后立马就要反过来执行一些操作,对这个查询设置直连主库。不推荐这种方法,你这么搞导致读写分离的意义就丧失了,采用强制读主库的方式,这样就可以保证你肯定的可以读到数据了吧。其实用一些数据库中间件是没问题的。
实现读写分离
一:基于程序代码实现:
在代码中根据 select 、insert 进行路由分类,这类方法也是目前生产环境下应用最广泛的。优点是性能较好,因为程序在代码中实现,不需要增加额外的硬件开支,缺点是需要开发人员来实现,运维人员无从下手。
二:代理中间件