MySQL 中的 SQL执行流程

image.png
MySQL的查询流程:

1. 查询缓存:

Server 如果在查询缓存中发现了这条 SQL 语句,就会直接将结果返回给客户端;如果没有,就进入到解析器阶段。需要说明的是,因为查询缓存往往效率不高,所以在 MySQL8.0 之后就抛弃了这个功能。

MySQL拿到一个查询请求后,会先到查询缓存看看,之前是不是执行过这条语句,之前执行过的语句及其结果可能会以 key -value 对的形式,被直接缓存在内存中,key是查询的语句,value是查询的结果,如果你的查询能够直接在这个缓存中找到key ,那么 这个 value 就会被直接返回给客户端,如果语句不在查询缓存中,就会继续后面的执行阶段,执行完成后,执行结果会被存入查询缓存中,所以,如果查询缓存命中,MySQL不需要执行后面的复杂操作,可以直接返回结果,这个效率会很高!

查询缓存是提前把查询结果缓存起来,这样下次不需要执行就可以直接拿到结果。需要说明的是,在MySQL 中的查询缓存,不是缓存查询计划,而是查询对应的结果。这就意味着查询匹配的 鲁棒性大大降低 ,只有 相同的查询操作才会命中查询缓存 。两个查询请求在任何字符上的不同(例如:空格、注释、大小写),都会导致缓存不会命中。因此 MySQL 的 查询缓存命中率不高 。

同时,如果查询请求中包含某些系统函数、用户自定义变量和函数、一些系统表,如 mysql 、information_schema、 performance_schema 数据库中的表,那这个请求就不会被缓存。以某些系统函数举例,可能同样的函数的两次调用会产生不一样的结果,比如函数 NOW ,每次调用都会产生最新的当前时间,如果在一个查询请求中调用了这个函数,那即使查询请求的文本信息都一样,那不同时间的两次查询也应该得到不同的结果,如果在第一次查询时就缓存了,那第二次查询的时候直接使用第一次查询的结果就是错误的!

此外,既然是缓存,那就有它 缓存失效的时候 。MySQL的缓存系统会监测涉及到的每张表,只要该表的结构或者数据被修改,如对该表使用了 INSERT 、 UPDATE 、 DELETE 、 TRUNCATE TABLE 、 ALTER TABLE 、 DROP TABLE 或 DROP DATABASE 语句,那使用该表的所有高速缓存查询都将变为无效并从高速缓存中删除!对于 更新压力大的数据库 来说,查询缓存的命中率会非常低。

总之因为查询缓存的结果往往弊大于利,查询缓存的失效非常频繁

一般建议大家在静态表里使用查询缓存,什么叫 静态表 呢?就是我们一般极少更新的表,比如,一个系统配置表,字典表,这张表上的查询才适合使用查询缓存,好在MySQL也提供了这些 “按需使用”的方式,你可以将my.cnf 参数 query_cache_type 设置成 DEMAND ,代表当sql语句中也有SQL_CACHE关键词时才缓存。比如:

  1. # query_cache_type 有3个值,0 代表关闭查询缓存off,1代表开启ON ,2 (DEMAND)
  2. query_cache_type=2

这样对于默认的SQL语句都不使用查询缓存,而对于你确定要使用查询缓存的语句,可以用SQL_CACHE显式指定,像下面这个语句一样:

select SQL_CACHE * from test where ID =5;

查看当前MySQL实例是否开启缓存机制

show global variables like "query_cache_type%";

MySQL5.7中:
1642920113(1).png
MySQL8.0中
1642920136(1).png

监控查询缓存的命中率:

show status like '%Qcache%';

1642920355(1).png
运行结果解析:

Qcache_free_blocks :表示查询缓存中还有多少剩余的blocks,如果该值显示较大,则
说明查询缓存中的内存碎片过多了,可能在一定的时间进行整理

Qcache_free_memory :查询缓存的内存大小,通过这个参数可以很清晰的知道当前系
统的查询内存是否够用,是多了,还是不够用,DBA可以根据实际情况做出调整

Qcache_hits :表示有多少次命中缓存,我们主要可以通过该值来验证我们的查询缓存的
效果,数字越大,缓存效果越理想

Qcache_inserts :表示多少次未命中然后插入,意思是先来的SQL请求在缓存中未找
到,不得不执行查询处理,执行查询处理后把结果insert到查询缓存中,这样的情况次数越多,表示查询缓存应用到的比较少,效果也就不理想,当然系统刚启动后,查询缓存是空的,这很正常。

Qcache_lowmem_prunes :该参数记录有多少条查询因为内存不足而被移除出查询缓
存,通过这个值,用户可以适当的调整缓存大小。

Qcache_not_cached :表示因为query_cache_type的设置而没有被缓存的查询数量

Qcache_queries_in_cache :当前缓存中缓存的查询数量

Qcache_total_blocks :当前缓存的block数量

2. 解析器:

在解析器中对 SQL 语句进行语法分析、语义分析。
image.png

如果没有命中查询缓存,就要开始真正执行语句了,首先,MySQL需要知道你要做什么,因此需要对SQL语句做解析,SQL语句的分析为词法分析于语法分析

分析器先做“ 词法分析 ”。你输入的是由多个字符串和空格组成的一条 SQL 语句,MySQL 需要识别出里面的字符串分别是什么,代表什么。 MySQL 从你输入的”select”这个关键字识别出来,这是一个查询语句。它也要把字符串“T”识别成“表名 T”,把字符串“ID”识别成“列 ID”。接着,要做“ 语法分析 ”。根据词法分析的结果,语法分析器(比如:Bison)会根据语法规则,判断你输入的这个 SQL 语句是否 满足 MySQL 语法 。
select department_id,job_id,avg(salary) from employees group by department_id;
如果SQL语句正确,则会生成一个这样的语法树:

image.png
1642921652(1).png

3. 优化器:

在优化器中会确定 SQL 语句的执行路径,比如是根据 全表检索 ,还是根据 索引检索 等。
经过了解析器,MySQL就知道你要做什么了,在开始执行之前,还要经过优化器的处理,一条查询可以有多个执行方式,最后返回相同的结果,优化器的作用就是找到这其中更好的执行计划。

比如:优化器是在表里面有多个索引的时候,决定使用哪个索引;或者在一个语句中有多表关联的时候,决定各个表的连接顺序,还有表达式简化,子查询转化为连接,外连接转为内连接等。

举例:如下语句是执行两个表的 join:

select * from test1 join test2 using(ID) where test1.name='zhangwei' and test2.name='mysql高级课程';

方案1:可以先从表 test1 里面取出 name=’zhangwei’的记录的 ID 值,再根据 ID 值关联到表 test2,再判 断 test2 里面 name的值是否等于 ‘mysql高级课程’。

方案2:可以先从表 test2 里面取出 name=’mysql高级课程’ 的记录的 ID 值,再根据 ID 值关联到 test1, 再判断 test1 里面 name的值是否等于 zhangwei。

这两种执行方法的逻辑结果是一样的,但是执行的效率会有不同,而优化器的作用就是决定选择使用哪一个方案。优化 器阶段完成后,这个语句的执行方案就确定下来了,然后进入执行器阶段。

如果你还有一些疑问,比如优化器是怎么选择索引的,有没有可能选择错等。后面讲到索引我们再谈。

在查询优化器中,可以分为 逻辑查询 优化阶段和 物理查询 优化阶段。

逻辑查询优化就是通过改变SQL语句的内容来使得SQL查询更高效,因为物理查询优化提供更多的候选执行计划,通常采用的是对SQL语句进行等价变换,对查询进行重写,而查询重写的数学基础就是关心代数,对条件表达式进行等价谓词重写,条件简化,对试图进行重写,对子查询进行优化,对连接语义进行了外连接消除,嵌套连接消除等。

物理查询优化是基于关系代数进行的查询重写,而关系代数的每一步都对应着物理计算,这些物理计算往往存在多种算法,因此需要计算各种物理路径的代价,从中选择代价最小的作为执行计划,在这个阶段里,对于单表和多表连接的操作,需要更高效的使用索引,提升查询效率

4. 执行器:

截止到现在,还没有真正去读写真实的表,仅仅只是产出了一个执行计划。于是就进入了 执行器阶段 。
image.png

在执行之前需要判断该用户是否 具备权限 。如果没有,就会返回权限错误。如果具备权限,就执行 SQL
查询并返回结果。在 MySQL8.0 以下的版本,如果设置了查询缓存,这时会将查询结果进行缓存。

select * from test where id=1;

如果有权限,就打开表继续执行,打开表的时候,执行器会根据表的引擎定义,调用存储引擎API对 表 进行读写,存储引擎 API 只是抽象接口,下面还有存储引擎层,具体实现还是要看表选择的存储引擎。
比如:表 test 中,ID 字段没有索引,那么执行器的执行流程是这样的:

调用 InnoDB 引擎接口取这个表的第一行,判断 ID 值是不是1,如果不是则跳过,如果是则将这行存在结果集中;
调用引擎接口取“下一行”,重复相同的判断逻辑,直到取到这个表的最后一行。
执行器将上述遍历过程中所有满足条件的行组成的记录集作为结果集返回给客户端。

至此,这个语句就执行完成了。对于有索引的表,执行的逻辑也差不多。
SQL 语句在 MySQL 中的流程是: SQL语句→查询缓存→解析器→优化器→执行器 。

image.png