mysql开启远程访问:https://blog.csdn.net/ayunnuo/article/details/112742465?

1、性能分析工具的使用

数据库调用的目的是响应速度更快,吞吐量更大!

1. 数据库服务器的优化步骤概述

当我们遇到数据库调优问题的时候,该如何思考呢?我们可以通过观察了解数据库整体的运行状态,通过性能分析工具可以让我们了解执行慢的SQL都有哪些,查看具体的SQL执行计划,甚至是SQL执行中的每一步的成本代价,这样才能定位问题所在,找到了问题,再采取相应的行动。
这里把思考的流程整理成下面这张图。
整个流程划分成了观察(Show status)行动(Action)两个部分。字母 S 的部分代表观察(会使用相应的分析工具),字母 A 代表的部分是行动(对应分析可以采取的行动)。
image-20220325175937136.png

详细解释一下这张图:
首先在S1部分,我们需要观察服务器的状态是否存在周期性的波动。如果存在周期性波动,有可能是周期性节点的原因,比如双十一、促销活动等。这样的话,我们可以通过A1这一步骤解决,也就是加缓存,或者更改缓存失效策略。
如果缓存策略没有解决,或者不是周期性波动的原因,我们就需要进一步分析查询延迟和卡顿的原因。接下来进入S2这一-步,我们需要开启慢查询。慢查询可以帮我们定位执行的比较慢的SQL语句。我们可以通过设置long_query_time参数定义“慢”的阈值,如果SQL执行时间超过了long_query_time规定的时间,则会认为是慢查询语句。当收集上来这些慢查询语句之后,我们就可以通过分析工具对慢查询日志进行分析。
在S3这一步骤中,我们就知道了执行慢的SQL,这样就可以针对性地用EXPLAIN查看对应SQL语句的执行计划,或者使用show profile查看SQL中每一个步骤的时间成本。这样我们就可以了解SQL查询慢是因为执行时间长,还是等待时间长。
如果是SQL等待时间长,我们进入A2步骤。在这一步骤中,我们可以调优服务器的参数,比如适当增加数据库缓冲池等。如果是SQL执行时间长,就进入A3步骤,这一步中我们需要考虑是索引设计的问题?还是查询关联的数据表过多?还是因为数据表的字段设计问题导致了这一现象。然后在这些维度上进行对应的调整。
如果A2和A3都不能解决问题,我们需要考虑数据库自身的SQL查询性能是否已经达到了瓶颈,如果确认没有达到性能瓶颈,就需要重新检查,重复以上的步骤。如果已经达到了性能瓶颈,进入A4阶段,需要考虑增加服务器,采用读写分离的架构,或者考虑对数据库进行分库分表,比如垂直分库、垂直分表和水平分表等
以上就是数据库调优的流程思路。
如果我们发现执行SQL时存在不规则延迟或卡顿的时候,就可以采用分析工具帮我们定位有问题的SQL,这三种分析工具你可以理解是SQL调优的三个步骤:慢查询、EXPLAIN和 SHOWPROFILING。
小结:
image.png

2. 查看系统性能参数

在MySQL中,可以使用SHOW STATUS语句查询一些MySQL数据库服务器的性能参数执行频率
SHOW STATUS语句语法如下:

  1. SHOW [GLOBAL|SESSION] STATUS LIKE '参数';

一些常用的性能参数如下:(首字母大写)

  • Connections:连接MySQL服务器的次数。
  • Uptime:MySQL服务器的上线时间。
  • Slow_queries:慢查询的次数。
    • 默认十秒以上
  • Innodb_rows_read:Select查询返回的行数
  • Innodb_rows_inserted:执行INSERT操作插入的行数
  • Innodb_rows_updated:执行UPDATE操作更新的行数
  • Innodb_rows_deleted:执行DELETE操作删除的行数
  • Com_select:查询操作的次数。
  • Com_insert:插入操作的次数。对于批量插入的 INSERT 操作,只累加一次。
  • Com_update:更新操作的次数。
  • Com_delete:删除操作的次数。

例如:

  1. # 慢查询次数
  2. show status like 'Slow_queries';

image.png
慢查询次数参数可以结合慢查询日志找出慢查询语句,然后针对慢查询语句进行表结构优化或者查询语句优化再比如,如下的指令可以查看相关的指令情况:

  1. show status like 'Innodb_rows_%';

image.png

3. 统计SQL的查询成本:last_query_cost

一条SQL查询语句在执行前需要确定查询执行计划,如果存在多种执行计划的话,MySQL会计算每个执行计划所需要的成本,从中选择**成本最小**的一个作为最终执行的执行计划。

如果我们想要查看某条SQL语句的查询成本,可以在执行完这条SQL语句之后,通过查看当前会话中的**last_query_cost**变量值来得到当前查询的成本。它通常也是我们**评价一个查询的执行效率**的一个常用指标。这个查询成本对应的是SQL语句所需要读取的页的数量
我们依然使用之前的 student_info 表为例:

  1. CREATE TABLE `student_info` (
  2. `id` INT(11) NOT NULL AUTO_INCREMENT,
  3. `student_id` INT NOT NULL ,
  4. `name` VARCHAR(20) DEFAULT NULL, `course_id` INT NOT NULL ,
  5. `class_id` INT(11) DEFAULT NULL,
  6. `create_time` DATETIME DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  7. PRIMARY KEY (`id`)
  8. ) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

如果我们想要查询 id=900001 的记录,然后看下查询成本,我们可以直接在聚簇索引上进行查找:

  1. SELECT student_id, class_id, NAME, create_time FROM student_info WHERE id = 900001 ;

运行结果(1条记录,运行时间为 0.042s
然后再看下查询优化器的成本,value表示实际上我们只需要检索一个页即可找到数据:

  1. mysql> SHOW STATUS LIKE 'last_query_cost';
  2. +-----------------+----------+
  3. | Variable_name | Value |
  4. +-----------------+----------+
  5. | Last_query_cost | 1.000000 |
  6. +-----------------+----------+

如果我们想要查询 id 在 900001 到 9000100 之间的学生记录呢?

  1. SELECT student_id, class_id, NAME, create_time FROM student_info
  2. WHERE id BETWEEN 900001 AND 900100;

运行结果(100 条记录,运行时间为 0.046s
然后再看下查询优化器的成本,这时我们大概需要进行 20 个页的查询。
image.png
你能看到页的数量是刚才的 20 倍,但是查询的效率并没有明显的变化,实际上这两个 SQL 查询的时间基本上一样,就是因为采用了顺序读取的方式将页面一次性加载到缓冲池中,然后再进行查找。虽然页数量(last_query_cost)增加了不少,但是通过缓冲池的机制,并没有增加多少查询时间

使用场景:它对于比较开销是非常有用的,特别是我们有好几种查询方式可选的时候。

SQL查询是一个动态的过程,从页加载的角度来看,我们可以得到以下两点结论:

  1. 位置决定效率如果页就在数据库**缓冲池**中,那么效率是最高的,否则还需要从磁盘中进行读取,当然针对单个页的读取来说,如果页存在于内存中,会比在磁盘中读取效率高很多。
  2. 批量决定效率。如果我们从磁盘中对单一页进行随机读,那么效率是很低的(差不多10ms),而采用顺序读取的方式,批量对页进行读取,平均一页的读取效率就会提升很多,甚至要快于单个页面在内存中的随机读取。

所以说,遇到I/O并不用担心,方法找对了,效率还是很高的。我们首先要考虑数据存放的位置,如果是经常使用的数据就要尽量放到缓冲池中,其次我们可以充分利用磁盘的吞吐能力,一次性批量读取数据,这样单个页的读取效率也就得到了提升。

4.定位执行慢的 SQL:慢查询日志

MySQL有一个慢查询日志,用来记录在MySQL中响应时间超过阀值的语句,具体是指运行时间超过long_query_time值的SQL,则会被记录到慢查询日志中。long_query_time的默认值为10,意思是运行10秒以上(不含10秒)的语句,则认为是超出了我们的最大忍耐时间值。|

它的主要作用是,帮助我们发现那些执行时间特别长的SQL查询语句,并且有针对性地进行优化,从而提高系统的整体效率。当我们的数据库服务器发生阻塞、运行变慢的时候,检查一下慢查询日志,找到那些慢查询,对解决问题很有帮助。比如一条sq|执行超过5秒钟,我们就算慢查询SQL,希望能收集超过5秒的sql,结合explain进行全面分析。

默认情况下,MySQL数据库没有开启慢查询日志,需要我们手动来设置这个参数。如果不是调优需要的话,一般不建议启动该参数,因为开启慢查询日志会或多或少带来一定的性能影响。
慢查询日志支持将日志记录写入文件。

4.1 开启慢查询日志参数

1.开启slow_query_log

  1. mysql > show variables like '%slow_query_log%';
  2. mysql > set global slow_query_log='ON';

然后我们再来查看下慢查询日志是否开启,以及慢查询日志文件的位置:
image.png
你能看到这时慢查询分析已经开启,同时文件保存在 /var/lib/mysql/atguigu02-slow.log 文件中。

2. 修改long_query_time阈值
接下来我们来看下慢查询的时间阈值设置,使用如下命令:

  1. mysql > show variables like '%long_query_time%';

image.png
value表示默认的慢查询语句为10秒。

  1. # 测试发现:设置global的方式对当前session的long_query_time失效。
  2. mysql> set global long_query_time = 1 ;
  3. mysql> show global variables like ' %long-query_time% ';
  4. # 对新连接的客户端有效。所以可以一并执行下述语句
  5. # 即更改global 也更改了session变量
  6. mysql> set long_query_time=1;
  7. mysql> show variables like '%long_query_time%';

image.png
上面的修改方式都是临时修改,一旦重启数据库就会恢复了
补充:配置文件中一并设置参数
如下的方式相较于前面的命令行方式,可以看作是永久设置的方式,重启数据库也不会变更了
修改my.cnf 文件,[mysqld]标签下增加或修改参数long_query_timeslow_query_logslow_query_log_file后,然后重启MySQL服务器即可。|

  1. [mysqld]
  2. slow_query_log=ON #开启慢查询日志的开关
  3. slow_query_log_file=/var/lib/mysql/my-slow.log #慢查询日志的目录和文件名信息
  4. long_query_time=3 #设置慢查询的阈值为3秒,超出此设定值的SQL即被记录到慢查询日志
  5. log_output=FILE

如果不指定存储路径,慢查询日志将默认存储到MySQL数据库的数据文件夹下。如果不指定文件名,默认文件名为hostname-slow.log。

4.2 查看慢查询数目

查询当前系统中有多少条慢查询记录

  1. SHOW GLOBAL STATUS LIKE '%Slow_queries%';

4.3 案例演示(这里主要是创建一个表并往里面添加几百万条数据)

步骤1. 建表

  1. CREATE TABLE `student` (
  2. `id` INT(11) NOT NULL AUTO_INCREMENT,
  3. `stuno` INT NOT NULL ,
  4. `name` VARCHAR(20) DEFAULT NULL,
  5. `age` INT(3) DEFAULT NULL,
  6. `classId` INT(11) DEFAULT NULL,
  7. PRIMARY KEY (`id`)
  8. ) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

步骤2:设置参数 log_bin_trust_function_creators
创建函数,假如报错:

  1. This function has none of DETERMINISTIC......

命令开启:允许创建函数设置:

  1. set global log_bin_trust_function_creators=1; # 不加global只是当前窗口有效。

步骤3:创建函数
随机产生字符串:(同上一章)

  1. DELIMITER //
  2. CREATE FUNCTION rand_string(n INT)
  3. RETURNS VARCHAR(255) #该函数会返回一个字符串
  4. BEGIN
  5. DECLARE chars_str VARCHAR(100) DEFAULT
  6. 'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ';
  7. DECLARE return_str VARCHAR(255) DEFAULT '';
  8. DECLARE i INT DEFAULT 0;
  9. WHILE i < n DO
  10. SET return_str =CONCAT(return_str,SUBSTRING(chars_str,FLOOR(1+RAND()*52),1));
  11. SET i = i + 1;
  12. END WHILE;
  13. RETURN return_str;
  14. END //
  15. DELIMITER ;

产生随机数值:(同上一章)

  1. #测试能否产生随机串
  2. SELECT rand_string(10);
  3. DELIMITER //
  4. CREATE FUNCTION rand_num (from_num INT ,to_num INT) RETURNS INT(11)
  5. BEGIN
  6. DECLARE i INT DEFAULT 0;
  7. SET i = FLOOR(from_num +RAND()*(to_num - from_num+1)) ;
  8. RETURN i;
  9. END //
  10. DELIMITER ;
  11. #测试:
  12. SELECT rand_num(10,100);

步骤4:创建存储过程

  1. DELIMITER //
  2. CREATE PROCEDURE insert_stu1( START INT , max_num INT )
  3. BEGIN
  4. DECLARE i INT DEFAULT 0;
  5. SET autocommit = 0; #设置手动提交事务
  6. REPEAT #循环
  7. SET i = i + 1; #赋值
  8. INSERT INTO student (stuno, NAME ,age ,classId ) VALUES
  9. ((START+i),rand_string(6),rand_num(10,100),rand_num(10,1000));
  10. UNTIL i = max_num
  11. END REPEAT;
  12. COMMIT; #提交事务
  13. END //
  14. DELIMITER ;

步骤5:调用存储过程

  1. #调用刚刚写好的函数, 4000000条记录,从100001号开始
  2. CALL insert_stu1(100001,4000000);

4.4 测试及分析

1.测试

  1. mysql> SELECT * FROM student WHERE stuno = 3455655;
  2. +---------+---------+--------+------+---------+
  3. | id | stuno | name | age | classId |
  4. +---------+---------+--------+------+---------+
  5. | 3523633 | 3455655 | oQmLUr | 19 | 39 |
  6. +---------+---------+--------+------+---------+
  7. 1 row in set (2.09 sec)
  8. mysql> SELECT * FROM student WHERE name = 'oQmLUr';
  9. +---------+---------+--------+------+---------+
  10. | id | stuno | name | age | classId |
  11. +---------+---------+--------+------+---------+
  12. | 1154002 | 1243200 | OQMlUR | 266 | 28 |
  13. | 1405708 | 1437740 | OQMlUR | 245 | 439 |
  14. | 1748070 | 1680092 | OQMlUR | 240 | 414 |
  15. | 2119892 | 2051914 | oQmLUr | 17 | 32 |
  16. | 2893154 | 2825176 | OQMlUR | 245 | 435 |
  17. | 3523633 | 3455655 | oQmLUr | 19 | 39 |
  18. +---------+---------+--------+------+---------+
  19. 6 rows in set (2.39 sec)

从上面的结果可以看出来,查询学生编号为“3455655”的学生信息花费时间为2.09秒。查询学生姓名为“oQmLUr”的学生信息花费时间为2.39秒。已经达到了秒的数量级,说明目前查询效率是比较低的,下面的小节我们分析一下原因 。
2.查看慢查询语句次数

show status like 'slow_queries';

补充说明: 除了上述变量,控制慢查询日志的还有一个系统变量: min_examined_row_limit。这个变量的意思是,查询扫描过的最少记录数。这个变量和查询执行时间,共同组成了判别一个查询是否是慢查询的条件。如果查询扫描过的记录数大于等于这个变量的值,并且查询执行时间超过long_query_time的值,那么,这个查询就被记录到慢查询日志中; 反之,则不被记录到慢查询日志中。 mysql> show variables like ‘min%’; +————————————+———-+ | Variable_name | Value | +————————————+———-+ | min_examined_row_limit | 0 | +————————————+———-+ 1 row in set (0.00 sec)

这个值默认是o。与loig_query_time=10合在一起,表示只要查询的执行时间超过10秒钟, 哪怕一个记录也没有扫描过,都要被记录到慢查询日志中。你也可以根据需要, 通过修改“my.ini””文件,来修改查询时长,或者通过SET指令, 用SQL语句修改“min_examined_row_limit”的值。

4.5 慢查询日志分析工具:mysqldumpslow

在生产环境中,如果要手工分析日志,查找、分析SQL,显然是个体力活,MySQL提供了日志分析工具mysqldumpslow
查看mysqldumpslow的帮助信息,注意这个命令不是在mysql中执行的,而是在Linux下执行的

mysqldumpslow --help

mysqldumpslow 命令的具体参数如下:

  • -a: 不将数字抽象成N,字符串抽象成S
  • -s: 是表示按照何种方式排序:
    • c: 访问次数
    • l: 锁定时间
    • r: 返回记录
    • t: 查询时间
    • al:平均锁定时间
    • ar:平均返回记录数
    • at:平均查询时间 (默认方式)
    • ac:平均查询次数
  • -t: 即为返回前面多少条的数据;
  • -g: 后边搭配一个正则匹配模式,大小写不敏感的

举例:我们想要按照查询时间排序,查看前五条 SQL 语句,这样写即可:

[root@bogon ~]# mysqldumpslow -s t -t 5 /var/lib/mysql/atguigu01-slow.log

image.png
工作常用参考:

#得到返回记录集最多的10个SQL
mysqldumpslow -s r -t 10 /var/lib/mysql/atguigu-slow.log

#得到访问次数最多的10个SQL
mysqldumpslow -s c -t 10 /var/lib/mysql/atguigu-slow.log

#得到按照时间排序的前10条里面含有左连接的查询语句
mysqldumpslow -s t -t 10 -g "left join" /var/lib/mysql/atguigu-slow.log

#另外建议在使用这些命令时结合 | 和more 使用 ,否则有可能出现爆屏情况
mysqldumpslow -s r -t 10 /var/lib/mysql/atguigu-slow.log | more

4.6 关闭慢查询日志

除了调优需要开,正常还是不要开了
MySQL服务器停止慢查询日志功能有两种方法:
方式1:永久性方式
修改my.cnf或者my.ini文件,把[mysqld]组下的slow_query_log值设置为OFF,修改保存后,再重启MySQL服务,即可生效;

[mysqld]
slow_query_log=OFF

或者,把slow_query_log一项注释掉 或 删除

mysqld]
#slow_query_log =OFF

重启MySQL服务,执行如下语句查询慢日志功能。

SHOW VARIABLES LIKE '%slow%'; #查询慢查询日志所在目录
SHOW VARIABLES LIKE '%long_query_time%'; #查询超时时长

方式2:临时性方式
使用SET语句来设置。 (1)停止MySQL慢查询日志功能,具体SQL语句如下。

SET GLOBAL slow_query_log=off;

(2)重启MySQL服务,使用SHOW语句查询慢查询日志功能信息,具体SQL语句如下

SHOW VARIABLES LIKE '%slow%';
#以及
SHOW VARIABLES LIKE '%long_query_time%';

4.7 删除慢查询日志

mysql> show variables like '%slow_query_log%';
+---------------------+----------------------------+
| Variable_name       | Value                      |
+---------------------+----------------------------+
| slow_query_log      | ON                         |
| slow_query_log_file | /var/lib/mysql/my-slow.log |
+---------------------+----------------------------+
2 rows in set (0.07 se

从执行结果可以看出,慢查询日志的目录默认为MySQL的数据目录,在该目录下手动删除慢查询日志文件即可。然后使用命令mysqladmin flush-logs 来重新生成查询日志文件,具体命令如下,执行完毕会在数据目录下重新生成慢查询日志文件。

# 不使用这个命令,没办法自己创建
mysqladmin -uroot -p flush-logs slow 

## 这个命令可以重置其他日志 例如undo日志

提示 慢查询日志都是使用mysqladmin flush-logs命令来删除重建的。使用时-定要注意,一旦执行了这个命令,慢
查询日志都只存在新的日志文件中,如果需要旧的查询日志,就必须事先备份。

5. 查看 SQL 执行成本:SHOW PROFILE

show profile在《逻辑架构》章节中讲过,这里作为复习。

Show Profile是MySQL提供的可以用来分析当前会话中SQL都做了什么、执行的资源消耗情况的工具,可用于sql调优的测量。默认情况下处于关闭状态,并保存最近15次的运行结果。
我们可以在会话级别开启这个功能

mysql> show variables like 'profiling';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| profiling     | OFF   |
+---------------+-------+
1 row in set (0.34 sec)

通过设置 profiling='ON’ 来开启 show profile:

mysql> set profiling = 'ON';
Query OK, 0 rows affected, 1 warning (0.06 sec)

mysql> show variables like 'profiling';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| profiling     | ON    |
+---------------+-------+
1 row in set (0.13 sec)

然后执行相关的查询语句。接着看下当前会话都有哪些 profiles,使用下面这条命令:

mysql> show profiles;
+----------+------------+-------------------------------------+
| Query_ID | Duration   | Query                               |
+----------+------------+-------------------------------------+
|        1 | 0.13515975 | show variables like 'profiling'     |
|        2 | 0.06386950 | select * from student_info limit 10 |
+----------+------------+-------------------------------------+
2 rows in set, 1 warning (0.01 sec)

你能看到当前会话一共有 2 个查询。如果我们想要查看最近一次查询的开销,可以使用:

mysql> show profile;
+--------------------------------+----------+
| Status                         | Duration |
+--------------------------------+----------+
| starting                       | 0.029330 |
| Executing hook on transaction  | 0.001174 |
| starting                       | 0.002804 |
| checking permissions           | 0.002918 |
| Opening tables                 | 0.009026 |
| init                           | 0.001605 |
| System lock                    | 0.000503 |
| optimizing                     | 0.000013 |
| statistics                     | 0.007651 |
| preparing                      | 0.000084 |
| executing                      | 0.005307 |
| end                            | 0.000017 |
| query end                      | 0.000178 |
| waiting for handler commit     | 0.000028 |
| closing tables                 | 0.001087 |
| freeing items                  | 0.000399 |
| cleaning up                    | 0.001748 |
+--------------------------------+----------+
17 rows in set, 1 warning (0.04 sec)

我们也可以查看指定的Query lD的开销,比如show profile for query 2查询结果是一样的。在SHOWPROFILE中我们可以查看不同部分的开销,比如cpu、block.io等:

mysql> show profile cpu,block io for query 2;
+------------------------------+--------+----------+------------+-------------+
| Status                       |Duration| CPU_user |Block_ops_in|Block_ops_out|
+------------------------------+--------+----------+------------+-------------+
| starting                     |0.029330| 0.017180 |       49712|            0|
| Executing hook on transaction|0.001174| 0.001079 |        3624|            0|
| starting                     |0.002804| 0.002169 |        4728|            0|
| checking permissions         |0.002918| 0.002437 |        8168|            0|
| Opening tables               |0.009026| 0.005841 |       14120|            0|
| init                         |0.001605| 0.000392 |          80|            0|
| System lock                  |0.000503| 0.000130 |          24|            0|
| optimizing                   |0.000013| 0.000010 |           0|            0|
| statistics                   |0.007651| 0.003072 |        4160|            0|
| preparing                    |0.000084| 0.000071 |           0|            0|
| executing                    |0.005307| 0.001609 |         568|            0|
| end                          |0.000017| 0.000011 |           0|            0|
| query end                    |0.000178| 0.000047 |           8|            0|
| waiting for handler commit   |0.000028| 0.000025 |           0|            0|
| closing tables               |0.001087| 0.000279 |          56|            0|
| freeing items                |0.000399| 0.000259 |           8|            0|
| cleaning up                  |0.001748| 0.000381 |          56|            0|
+------------------------------+--------+----------+------------+-------------+
17 rows in set, 1 warning (0.01 sec)

如果是executing执行时间比较长就可能是代码哪里没写好,使用explain 语句继续查询问题

show profile的常用查询参数:
① ALL:显示所有的开销信息。
② BLOCK IO:显示块IO开销。
③ CONTEXT SWITCHES:上下文切换开销。
④ CPU:显示CPU开销信息。
⑤ IPC:显示发送和接收开销信息。
⑥ MEMORY:显示内存开销信息。
⑦ PAGE FAULTS:显示页面错误开销信息。
⑧ SOURCE:显示和Source_function,Source_file,Source_line相关的开销信息。
⑨ SWAPS:显示交换次数开销信息。
日常开发需注意的结论:

  1. converting HEAP to MyISAM: 查询结果太大,内存不够,数据往磁盘上搬了。
  2. creating tmp table: 创建临时表。先拷贝数据到临时表,用完后再删除临时表。
  3. Copying to tmp table on disk:把内存中临时表复制到磁盘上,警惕!
  4. locked
    如果在show profile诊断结果中出现了以上4条结果中的任何一条,则sql语句需要优化。

注意:
不过SHOW PROFILE命令将被弃用,我们可以从information_schema中的profiling数据表进行查看。

6. 分析查询语句:EXPLAIN(重点)

6.1 概述

定位了查询慢的SQL之后,我们就可以使用EXPLAIN或DESCRIBE工具做针对性的分析查询语句。
DESCRIBE语句的使用方法与EXPLAIN语句是一样的,并且分析结果也是一样的。
MySQL中有专门负责优化SELECT语句的优化器模块,主要功能: 通过计算分析系统中收集到的统计信息,为客户端请求的Query生成它认为最优的执行计划(只是优化器认为最优的数据检索方式而已,但不见得是DBA认为是最优的,这部分最耗费时间)。

这个执行计划展示了接下来具体执行查询的方式,比如多表连接的顺序是什么,对于每个表采用什么访问方法来具体执行查询等等。MySQL为我们提供了EXPLAIN语句来帮助我们查看某个查询语句的具体执行计划,大家看懂EXPLAIN语句的各个输出项,可以有针对性的提升我们查询语句的性能。
1.EXPLAIN语句能做什么? 查看什么信息?

  • 表的读取顺序
  • 数据读取操作的操作类型。
  • 哪些索引可以使用
  • 哪些索引被实际使用
  • 表之间的引用
  • 每张表有多少行被优化器查询

官网介绍
https://dev.mysql.com/doc/refman/5.7/en/explain-output.html
https://dev.mysql.com/doc/refman/8.0/en/explain-output.html
**版本情况

  • MySQL 5.6.3以前只能用语句 EXPLAIN 查看SELECT语句的相应信息 ;MYSQL 5.6.3以后就可以 EXPLAINSELECT,UPDATE,DELETE。

如下图所示,执行该语句后并不会真正去删除对应的数据记录,只是查看了一下该语句的执行计划而已。
image.png

  • 在5.7以前的版本中,想要显示 partitions (分区)需要使用 explain partitions 命令;想要显示filtered 需要使用 explain extended 命令。在5.7版本后,默认explain直接显示partitions和filtered中的信息。

image.png

6.2 基本语法

EXPLAIN 或 DESCRIBE语句的语法形式如下:

EXPLAIN SELECT select_options
# 或者 两个是一样的
DESCRIBE SELECT select_options

如果我们想看某个查询的执行计划的话,可以在具体的查询语句前边加一个 EXPLAIN ,就像这样:

mysql> EXPLAIN SELECT 1;

image.png
EXPLAIN 语句输出的各个列的作用如下

列名 描述
id 在一个大的查询语句中每个SELECT关键字都对应一个 唯一的id
select_type SELECT关键字对应的那个查询的类型
table 表名
partitions 匹配的分区信息
type 针对单表的访问方法(重要)
possible_keys 可能用到的索引
key 实际上使用的索引
key_len 实际使用到的索引长度
ref 当使用索引列等值查询时,与索引列进行等值匹配的对象信息
rows 预估的需要读取的记录条数
filtered 某个表经过搜索条件过滤后剩余记录条数的百分比
Extra 一些额外的信息

虽然 explain返回的结果项很多,这里我们只关注三种,分别是type,key,rows。其中key表明的是这次查找中所用到的索引,rows是指这次查找数据所扫描的行数(这里可以先这样理解,但实际上是内循环的次数)。

6.3 数据准备

1.建表
在atguigudb中创建表
s1

CREATE TABLE s1 (
  id INT AUTO_INCREMENT,
  key1 VARCHAR(100), 
  key2 INT, 
  key3 VARCHAR(100), 
  key_part1 VARCHAR(100),
  key_part2 VARCHAR(100),
  key_part3 VARCHAR(100),
  common_field VARCHAR(100),
  PRIMARY KEY (id),   
  INDEX idx_key1 (key1),
  UNIQUE INDEX idx_key2 (key2),
  INDEX idx_key3 (key3),
  INDEX idx_key_part(key_part1, key_part2, key_part3)
) ENGINE=INNODB CHARSET=utf8;
CREATE TABLE s2 (
  id INT AUTO_INCREMENT,
  key1 VARCHAR(100),
  key2 INT,
  key3 VARCHAR(100),
  key_part1 VARCHAR(100),
  key_part2 VARCHAR(100),
  key_part3 VARCHAR(100),
  common_field VARCHAR(100), #普通字段,无索引
  PRIMARY KEY (id),    #主键索引、聚簇索引
  INDEX idx_key1 (key1), # 普通索引
  UNIQUE INDEX idx_key2 (key2), #唯一索引
  INDEX idx_key3 (key3), #普通索引
  INDEX idx_key_part(key_part1, key_part2, key_part3) ##联合索引
) ENGINE=INNODB CHARSET=utf8;

2. 设置参数 log_bin_trust_function_creators
创建函数,假如报错, 则执行该语句开启如下命令:允许创建函数设置:然后再创建函数

set global log_bin_trust_function_creators=1; # 不加global只是当前窗口有效。

3. 创建函数

DELIMITER //
CREATE FUNCTION rand_string1 ( n INT ) 
RETURNS VARCHAR ( 255 ) #该函数会返回一个字符串
BEGIN
DECLARE
chars_str VARCHAR ( 100 ) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ';
DECLARE
return_str VARCHAR ( 255 ) DEFAULT '';
DECLARE
i INT DEFAULT 0;
WHILE
i < n DO

SET return_str = CONCAT(
  return_str,
  SUBSTRING( chars_str, FLOOR( 1+RAND ()* 52 ), 1 ));

  SET i = i + 1;

  END WHILE;
  RETURN return_str;

  END // 
DELIMITER ;

4. 创建存储过程
创建往s1表中插入数据的存储过程:

DELIMITER //
CREATE PROCEDURE insert_s1 (IN min_num INT (10),IN max_num INT (10))
BEGIN
DECLARE i INT DEFAULT 0;
SET autocommit = 0;
REPEAT
SET i = i + 1;
INSERT INTO s1 VALUES(
  (min_num + i),
  rand_string1(6),
  (min_num + 30 * i + 5),
  rand_string1(6),
  rand_string1(10),
  rand_string1(5),
  rand_string1(10),
  rand_string1(10));
  UNTIL i = max_num
  END REPEAT;
  COMMIT;
  END //
DELIMITER ;

创建往s2表中插入数据的存储过程:

DELIMITER //
CREATE PROCEDURE insert_s2 (IN min_num INT ( 10 ),IN max_num INT ( 10 )) 
BEGIN
DECLARE i INT DEFAULT 0;
SET autocommit = 0;
REPEAT
SET i = i + 1;
INSERT INTO s2 VALUES(
  ( min_num + i ),
  rand_string1 ( 6 ),
  ( min_num + 30 * i + 5 ),
  rand_string1 ( 6 ),
  rand_string1 ( 10 ),
  rand_string1 ( 5 ),
  rand_string1 ( 10 ),
  rand_string1 ( 10 ));
  UNTIL i = max_num 
  END REPEAT;
  COMMIT;

  END // 
DELIMITER ;

5. 调用存储过程
s1表数据的添加:加入1万条记录:

CALL insert_s1(10001,10000); # id 10002~20001

s2表数据的添加:加入1万条记录:

CALL insert_s2(10001,10000);# id 10002~20001

查看是否插入成功:SELECT COUNT(*) FROM s2;

6.4 EXPLAIN各列作用

数据准备好之后我们就来研究一下这个EXPLAIN中各列的作用,为了让大家有比较好的体验,我们调整了下 EXPLAIN 输出列的顺序。

1. table表名

不论我们的查询语句有多复杂,里边儿 包含了多少个表 ,到最后也是需要对每个表进行 单表访问 的,所以MySQL规定EXPLAIN语句输出的每条记录都对应着某个单表的访问方法,该条记录的table列代表着该
表的表名(有时不是真实的表名字,可能是简称)

#1. table:表名
#查询到的每一行记录都对应着一个单表
explain select count(*) from s1;

image.png

#s1:驱动表  s2:被驱动表
EXPLAIN SELECT * FROM s1 INNER JOIN s2;
# 驱动表和被驱动表是 优化器决定的,他认为哪个比较好就用哪个

image.png

用到多少个表,就会有多少条记录,包括临时表

2. id

在一个大的查询语句中每个SELECT关键字都对应一个唯一的id。
正常来说一个select 一个id ,也有例外的可能,查询优化器做了优化

mysql> EXPLAIN SELECT * FROM s1 INNER JOIN s2;

image.png

mysql> EXPLAIN SELECT * FROM s1 WHERE key1 IN (SELECT key1 FROM s2) OR key3 = 'a';

image.png
查询优化器优化

 ######查询优化器可能对涉及子查询的查询语句进行重写,转变为多表查询的操作########
 EXPLAIN SELECT * FROM s1 WHERE key1 IN (SELECT key2 FROM s2 WHERE common_field = 'a');

运行结果: id 只有一个,原因是查询优化器做了优化
image.png

Union去重

## s1跟s2生成了临时表,也算一个表故有三条记录
# union 去重,union all 不去重
EXPLAIN SELECT * FROM s1 UNION SELECT * FROM s2;

image.png

# union all 不去重  所以不需要放在临时表里面,也就没有第三条记录了。
mysql> EXPLAIN SELECT * FROM s1 UNION ALL SELECT * FROM s2;

image.png
小结:

  • id如果相同,可以认为是一组,从上往下顺序执行
  • 在所有组中,id值越大,优先级越高,越先执行
  • 关注点:id号每个号码,表示一趟独立的查询, 一个sql的查询趟数越少越好

3. select_type 查询类型

一条大的查询语句里边可以包含若干个SELECT关键字,**每个SELECT关键字代表着一个小的查询语句**,而每个SELECT关键字的FROM子句中都可以包含若干张表(这些表用来做连接查询),**每一张表都对应着执行计划输出中的一条记录**,对于在同一个SELECT关键字中的表来说,它们的id值是相同的。

MySQL为每一个SELECT关键字代表的小查询都定义了一个称之为select_type的属性,意思是我们只要知道了某个小查询的select_type属性,就知道了这个小查询在整个大查询中扮演了一个什么角色,我们看一下
select_type都能取哪些值,请看官方文档:

名称 描述
SIMPLE 简单的 select 查询,查询中不包含子查询或者UNION
PRIMARY 查询中若包含任何复杂的子部分,最外层查询则被标记为Primary
UNION 若第二个SELECT出现在UNION之后,则被标记为UNION;若UNION包含在FROM子句的子查询中,外层SELECT将被标记为:DERIVED
UNION RESULT 从UNION表获取结果的SELECT
SUBQUERY 在SELECT或WHERE列表中包含了子查询
DEPENDENT SUBQUERY 在SELECT或WHERE列表中包含了子查询,子查询基于外层
DEPENDENT UNION Second or later SELECT statement in a UNION, dependent on outer query
DERIVED 在FROM列表中包含的子查询被标记为DERIVED(衍生);MySQL会递归执行这些子查询, 把结果放在临时表里。
MATERIALIZED Materialized subquery
UNCACHEABLE SUBQUERY 无法被缓存的子查询
UNCACHEABLE UNION The second or later select in a UNION that belongs to an uncacheable subquery (see UNCACHEABLE SUBQUERY)
  • **SIMPLE**

    # 查询语句中不包含`UNION`或者子查询的查询都算作是`SIMPLE`类型
    EXPLAIN SELECT * FROM s1;
    
    #连接查询也算是`SIMPLE`类型
    EXPLAIN SELECT * FROM s1 INNER JOIN s2;
    

    image.png

  • PRIMARYUNIONUNION RESULT

    • UNION RESULT
      MySQL选择使用临时表来完成UNION查询的去重工作,针对该临时表的查询的select_type就是UNION RESULT,例子上边有。 ```

      对于包含UNION或者UNION ALL或者子查询的大查询来说,它是由几个小查询组成的,其中最左边

      的那个查询的select_type值就是PRIMARY

对于包含UNION或者UNION ALL的大查询来说,它是由几个小查询组成的,其中除了最左边的那个

小查询以外,其余的小查询的select_type值就是UNION

MySQL选择使用临时表来完成UNION查询的去重工作,针对该临时表的查询的select_type

就是UNION RESULT

测试sql:

EXPLAIN SELECT FROM s1 UNION SELECT FROM s2;

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653391970109-af316c21-6842-451d-818f-bf229ad7bbf8.png#clientId=ucd7b7274-3c96-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=106&id=ua34be136&name=image.png&originHeight=133&originWidth=1312&originalType=binary&ratio=1&rotation=0&showTitle=false&size=49762&status=done&style=none&taskId=u435cc54d-a4ff-46c2-8d9a-ab4c6cf6878&title=&width=1049.6)

EXPLAIN SELECT FROM s1 UNION ALL SELECT FROM s2;

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653391986374-57359707-75b6-4d5e-99e1-36e34817d280.png#clientId=ucd7b7274-3c96-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=62&id=u75045c90&name=image.png&originHeight=77&originWidth=1363&originalType=binary&ratio=1&rotation=0&showTitle=false&size=34280&status=done&style=none&taskId=u80ddc259-fcda-4177-be2e-384737508d6&title=&width=1090.4)

-  `SUBQUERY`<br />**如果包含子查询的查询语句不能够转为对应的**`**semi-join**`**的形式,并且该子查询是不相关子查询,并且查询优化器决定采用将该子查询物化的方案来执行该子查询时**,该子查询的第一个`SELECT` 关键字代表的那个查询<br />的`select_type`就是 `SUBQUERY`,比如下边这个查询:

子查询:

如果包含子查询的查询语句不能够转为对应的semi-join的形式,并且该子查询是不相关子查询。

该子查询的第一个SELECT关键字代表的那个查询的select_type就是SUBQUERY

EXPLAIN SELECT * FROM s1 WHERE key1 IN (SELECT key1 FROM s2) OR key3 = ‘a’;

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653392180692-ea105c72-fb97-4b4e-b6de-e58f732b43c4.png#clientId=ucd7b7274-3c96-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=62&id=u0b97012f&name=image.png&originHeight=78&originWidth=1415&originalType=binary&ratio=1&rotation=0&showTitle=false&size=37411&status=done&style=none&taskId=u5e1765c8-fd62-4e65-851b-1be6eec4e85&title=&width=1132)

-  `DEPENDENT SUBQUERY`<br />dependent subquery

如果包含子查询的查询语句不能够转为对应的semi-join的形式,并且该子查询是相关子查询,

则该子查询的第一个SELECT关键字代表的那个查询的select_type就是DEPENDENT SUBQUERY

EXPLAIN SELECT * FROM s1 WHERE key1 IN (SELECT key1 FROM s2 WHERE s1.key2 = s2.key2) OR key3 = ‘a’;

注意的是,select_type为DEPENDENT SUBQUERY的查询可能会被执行多次。

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653392209801-52e13146-bc76-43b8-ab40-272394d59978.png#clientId=ucd7b7274-3c96-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=94&id=u3c2a9ec7&name=image.png&originHeight=118&originWidth=1399&originalType=binary&ratio=1&rotation=0&showTitle=false&size=50297&status=done&style=none&taskId=u3bb8de20-052e-4ead-b045-a2cbf3d336d&title=&width=1119.2)

-  `DEPENDENT UNION`

在包含UNION或者UNION ALL的大查询中,如果各个小查询都依赖于外层查询的话,那除了

最左边的那个小查询之外,其余的小查询的select_type的值就是DEPENDENT UNION

EXPLAIN SELECT * FROM s1 WHERE key1 IN (SELECT key1 FROM s2 WHERE key1 = ‘a’ UNION SELECT key1 FROM s1 WHERE key1 = ‘b’);

这里优化器会重构成exist

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653392228845-47ca3ce6-e549-4f7f-ac85-cd3caaeaf4bc.png#clientId=ucd7b7274-3c96-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=98&id=u21816b71&name=image.png&originHeight=123&originWidth=1460&originalType=binary&ratio=1&rotation=0&showTitle=false&size=68141&status=done&style=none&taskId=u8d5f028d-57a3-46d3-944a-9a8f3184925&title=&width=1168)

-  `DERIVED`<br />derived : 衍生,派生

对于包含派生表的查询,该派生表对应的子查询的select_type就是DERIVED

EXPLAIN SELECT FROM (SELECT key1, COUNT() AS c FROM s1 GROUP BY key1) AS derived_s1 WHERE c > 1;

<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653392450803-c6ae1046-a7c3-48b7-aa61-5d9f9f81793f.png#clientId=ucd7b7274-3c96-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=82&id=u313ab70d&name=image.png&originHeight=102&originWidth=1288&originalType=binary&ratio=1&rotation=0&showTitle=false&size=35499&status=done&style=none&taskId=u0226d4b3-624d-4f58-898f-4bc7203a7e7&title=&width=1030.4)

-  `MATERIALIZED`<br />materialized: 英 [məˈtɪəri:əˌlaɪzd] 具体化

当查询优化器在执行包含子查询的语句时,选择将子查询物化之后与外层查询进行连接查询时,

该子查询对应的select_type属性就是MATERIALIZED

EXPLAIN SELECT * FROM s1 WHERE key1 IN (SELECT key1 FROM s2); #子查询被转为了物化表

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653392499515-e9e98a3d-d3b0-4804-95c6-1dd5726007a4.png#clientId=ucd7b7274-3c96-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=128&id=u4f42ed6f&name=image.png&originHeight=160&originWidth=1475&originalType=binary&ratio=1&rotation=0&showTitle=false&size=62152&status=done&style=none&taskId=u6766fbd7-1130-4b3e-a5c4-5bdf4397d0c&title=&width=1180)<br />  

-  `UNCACHEABLE SUBQUERY`<br />uncacheable 
-  `UNCACHEABLE UNION` 

<a name="76c2565d"></a>
#### 4. partitions (可略)

- 代表分区表中的命中情况,非分区表,该项为NULL。一般情况下我们的查询语句的执行计划的partitions列的值都是NULL。
- [https://dev.mysql.com/doc/refman/5.7/en/alter-table-partition-operations.html](https://dev.mysql.com/doc/refman/5.7/en/alter-table-partition-operations.html)
- 如果想详细了解,可以如下方式测试。创建分区表:

— 创建分区表, — 按照id分区,id<100 p0分区,其他p1分区 CREATE TABLE user_partitions ( id INT auto_increment, NAME VARCHAR(12),PRIMARY KEY(id)) PARTITION BY RANGE(id)( PARTITION p0 VALUES less than(100), PARTITION p1 VALUES less than MAXVALUE );



查询id大于200(200>100,p1分区)的记录,查看执行计划,partitions是p1,符合我们的分区规则

DESC SELECT * FROM user_partitions WHERE id>200;

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653392713947-0a47bada-8600-4f31-bdcd-5fc92eea0987.png#clientId=ucd7b7274-3c96-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=89&id=u914401ab&name=image.png&originHeight=111&originWidth=1022&originalType=binary&ratio=1&rotation=0&showTitle=false&size=74394&status=done&style=none&taskId=u8071fb2d-4e28-4493-8617-ce13a6b909f&title=&width=817.6)

<a name="f70b1c48"></a>
#### 5. type ☆☆☆☆

执行计划的一条记录就代表着MySQL对某个表的`执行查询时的访问方法`,又称"访问类型”,其中的`type`列就表明了这个访问方法是啥,是较为重要的一个指标。比如,看到`type`列的值是`ref`,表明MySQL即将使用`ref`访问方法来执行对`s1`表的查询。

完整的访问方法如下: `system` , `const` , `eq_ref` , `ref` , `fulltext` , `ref_or_null` ,`index_merge` , `unique_subquery` , `index_subquery` , `range` , `index` , `ALL(全表遍历)` 。<br />我们详细解释一下:

-  `system`<br />当表中`只有一条记录`并且该表使用的存储引擎的统计数据是精确的, 比如MyISAM、Memory,那么对该表的访问方法就是`system`。比方说我们新建一个`MyISAM`表,并为其插入一条记录: 
```plsql
mysql> CREATE TABLE t(i int) Engine=MyISAM;
Query OK, 0 rows affected (0.05 sec)

mysql> INSERT INTO t VALUES(1);
Query OK, 1 row affected (0.01 sec)


然后我们看一下查询这个表的执行计划:
image.png

  • const

通常情况下,如果将一个主键放置到where后面作为条件查询,mysql优化器就能把这次查询优化转化为一个常量。至于如何转化以及何时转化,这个取决于优化器。


 EXPLAIN SELECT * FROM s1 WHERE id = 10005;

 EXPLAIN SELECT * FROM s1 WHERE key2 = '10066';
  • eq_ref

ref_eq 与 ref相比牛的地方是,它知道这种类型的查找结果集只有一个?什么情况下结果集只有一个呢!那便是使用了主键或者唯一性索引进行查找的情况,比如根据学号查找某一学校的一名同学,在没有查找前我们就知道结果一定只有一个,所以当我们首次查找到这个学号,便立即停止了查询。这种连接类型每次都进行着精确查询,无需过多的扫描,因此查找效率更高,当然列的唯一性是需要根据实际情况决定的。

 #在连接查询时,如果被驱动表是通过主键或者唯一二级索引列等值匹配的方式进行访问的
 #(如果该主键或者唯一二级索引是联合索引的话,所有的索引列都必须进行等值比较),则
 #对该被驱动表的访问方法就是`eq_ref`
 EXPLAIN SELECT * FROM s1 INNER JOIN s2 ON s1.id = s2.id;


从执行计划的结果中可以看出,MySQL打算将s2作为驱动表,s1作为被驱动表,重点关注s1的访问
方法是 eq_ref ,表明在访问s1表的时候可以 通过主键的等值匹配 来进行访问。

  • ref

出现该连接类型的条件是: 查找条件列使用了索引而且不为主键和unique。其实,意思就是虽然使用了索引,但该索引列的值并不唯一,有重复。这样即使使用索引快速查找到了第一条数据,仍然不能停止,要进行目标值附近的小范围扫描。但它的好处是它并不需要扫全表,因为索引是有序的,即便有重复值,也是在一个非常小的范围内扫描。下面为了演示这种情形,给employee表中的name列添加一个普通的key(值允许重复)

 #当通过普通的二级索引列与常量进行等值匹配时来查询某个表,那么对该表的访问方法就可能是`ref`
 EXPLAIN SELECT * FROM s1 WHERE key1 = 'a';


执行结果:

  • fulltext
    全文索引
  • ref_or_null
    #当对普通二级索引进行等值匹配查询,该索引列的值也可以是`NULL`值时,那么对该表的访问方法
    #就可能是`ref_or_null`
    EXPLAIN SELECT * FROM s1 WHERE key1 = 'a' OR key1 IS NULL;
    
  • index_merge

    #单表访问方法时在某些场景下可以使用`Intersection`、`Union`、
    #`Sort-Union`这三种索引合并的方式来执行查询
    EXPLAIN SELECT * FROM s1 WHERE key1 = 'a' OR key3 = 'a';
    


    结果
    从执行计划的 type 列的值是 index_merge 就可以看出,MySQL 打算使用索引合并的方式来执行
    s1 表的查询。

  • unique_subquery

    #`unique_subquery`是针对在一些包含`IN`子查询的查询语句中,如果查询优化器决定将`IN`子查询
    #转换为`EXISTS`子查询,而且子查询可以使用到主键进行等值匹配的话,那么该子查询执行计划的`type`
    #列的值就是`unique_subquery`
    EXPLAIN SELECT * FROM s1 
    WHERE key2 IN (SELECT id FROM s2 WHERE s1.key1 = s2.key1) OR key3 = 'a';
    
  • index_subquery

    EXPLAIN SELECT * FROM s1 WHERE common_field IN (SELECT key3 FROM s2 where
    s1.key1 = s2.key1) OR key3 = 'a';
    
  • range

range指的是有范围的索引扫描,相对于index的全索引扫描,它有范围限制,因此要优于index。关于range比较容易理解,需要记住的是出现了range,则一定是基于索引的。同时除了显而易见的between,and以及’>’,’<’外,in和or也是索引范围扫描。

#如果使用索引获取某些`范围区间`的记录,那么就可能使用到`range`访问方法
EXPLAIN SELECT * FROM s1 WHERE key1 IN ('a', 'b', 'c');

#同上
EXPLAIN SELECT * FROM s1 WHERE key1 > 'a' AND key1 < 'b';
  • index

这种连接类型只是另外一种形式的全表扫描,只不过它的扫描顺序是按照索引的顺序。(取同一个表数据),但为什么官方的手册将它的效率说的比all好,唯一可能的原因在于,按照索引扫描全表的数据是有序的。这样一来,结果不同,也就没法比效率的问题了。

#当我们可以使用索引覆盖,但需要扫描全部的索引记录时,该表的访问方法就是`index`
EXPLAIN SELECT key_part2 FROM s1 WHERE key_part3 = 'a';
  • ALL (全表扫描)

这便是所谓的“全表扫描”,如果是展示一个数据表中的全部数据项,倒是觉得也没什么,如果是在一个查找数据项的sql中出现了all类型,那通常意味着你的sql语句处于一种最原生的状态,有很大的优化空间。
为什么这么说呢?因为all是一种非常暴力和原始的查找方法,非常的耗时而且低效。用all去查找数据就好比这样的一个情形:S学校有俩万人,我告诉你你给我找到小明,然后你怎么做呢!你当然是把全校俩万人挨个找一遍,即使你很幸运第一个人便找到了小明,但是你仍然不能停下,因为你无法确认是否有另外一个小明存在,直到你把俩万人找完为止。所以,基本所有情况,我们都要避免这样类型的查找,除非你不得不这样做。
一般来说,这些访问方法中除了All这个访问方法外,其余的访问方法都能用到索引,除了index_merge访问方法外,其余的访问方法都最多只能用到一个索引。

mysql> EXPLAIN SELECT * FROM s1;

image.png

小结:

结果值从最好到最坏依次是:
system > const > eq_ref > ref >fulltext > ref_or_null > index_merge >unique_subquery > index_subquery > range > index > ALL
SQL 性能优化的目标:至少要达到 range 级别,要求是 ref 级别,最好是 consts级别。(阿里巴巴
开发手册要求)

6. possible_keys和key

在EXPLAIN语句输出的执行计划中, possible_keys列表示在某个查询语句中,对某个表执行单表查询时**可能用**到的索引有哪些。一般查询涉及到的字段上若存在索引,则该索引将被列出,但不一定被查询使用。
key列表示**实际用到**的索引有哪些,如果为NULL,则没有使用索引。比方说下边这个查询:

mysql> EXPLAIN SELECT * FROM s1 WHERE key1 > 'z' AND key3 = 'a';
+----+-------------+------+------+-------------------+----------+
| id | select_type | table| type | possible_keys     | key      |
+----+-------------+------+------+-------------------+----------+
|  1 | SIMPLE      | s1   | ref  | idx_key1,idx_key3 | idx_key3 |
+----+-------------+------+------+-------------------+----------+
1 row in set, 1 warning (0.01 sec)

上述执行计划的possible_keys列的值是idx_key1,idx_key3,表示该查询可能使用到idx_key1 , idx_key3两个索引,然后key列的值是idx_key3,表示经过查询优化器计算使用不同索引的成本后,最后决定使用idx_key3索引。

索引只能用一个。所以他要选一个出来用。查看上面 **index_merge** or 的话 会走索引合并。

7. key_len ☆☆☆☆

key_len列显示MySQL在索引里使用的字节数,通过这个值可以算出具体使用了索引中那些字段。

  • key_len:实际使用到的索引长度(即:字节数)
  • key_len越小 索引效果越好 这是前面学到的只是,短一点效率更高
  • 但是在联合索引里面,命中一次key_len加一次长度。越长代表精度越高,效果越好

key_len计算规则如下:

字符串
char(n):n字节长度。
varchar(n):需要占用2字节存储字符串长度,如果字符类型为utf-8,则长度为 3n+2。

数值类型
tinyint:1字节。
smallint:2字节。
int:4字节。
bigint:8字节。

时间类型
date:3字节。
timestamp:4字节。
datetime:8字节。

如果字段允许为NULL,需要1字节记录是否为NULL。

索引最大长度是768字节,当字符串过长时,MySQL会做一个类似左前缀索引的处理,将前半部分的字符提取出来做索引。
#7. 
EXPLAIN SELECT * FROM s1 WHERE id = 10005;

## 结果key_len =4 ,因为id列的类型是int整型主键,不包括null字段,占4字节
mysql> EXPLAIN SELECT * FROM s1 WHERE key2 = 10126;

## 结果key_len = 5

key2 是int 类型 unique 唯一索引。因为还可能有一个null值,所以 null占一个字段。4+1 = 5

mysql> EXPLAIN SELECT * FROM s1 WHERE key1 = 'a';

## 结果key_len = 303

原因: idx_key_part(key_part1, key_part2, key_part3) 是3个100的字段合起来的联合索引,且每一个字段可以为空,所以是(100+1)*3 = 303。
示例:

mysql> EXPLAIN SELECT * FROM s1 WHERE key_part1 = 'a';
+----+------------+------+---------------+--------------+---------+-------+------+
| id | select_type| type | possible_keys | key          | key_len | ref   | rows |
+----+------------+------+---------------+--------------+---------+-------+------+
|  1 | SIMPLE     | ref  | idx_key_part  | idx_key_part | 303     | const |    1 |
+----+------------+------+---------------+--------------+---------+-------+------+
1 row in set, 1 warning (0.00 sec)
mysql> EXPLAIN SELECT * FROM s1 WHERE key_part1 = 'a' AND key_part2 = 'b';
+----+------------+-----+---------------+--------------+---------+------------
| id | select_type|type | possible_keys | key          | key_len | ref        
+----+------------+-----+---------------+--------------+---------+------------
|  1 | SIMPLE     |ref  | idx_key_part  | idx_key_part | 606     | const,const
+----+------------+-----+---------------+--------------+---------+------------
1 row in set, 1 warning (0.00 sec)

结果key_606
这里命中了两次联合索引,精度更高,效果更好

练习:
key_len的长度计算公式:

varchar(10)变长字段且允许NULL = 10 * ( character set:utf8=3,gbk=2,latin1=1)+1(NULL)+2(变长字段)

varchar(10)变长字段且不允许NULL = 10 * ( character set:utf8=3,gbk=2,latin1=1)+2(变长字段)

char(10)固定字段且允许NULL = 10 * ( character set:utf8=3,gbk=2,latin1=1)+1(NULL)

char(10)固定字段且不允许NULL = 10 * ( character set:utf8=3,gbk=2,latin1=1)

8. ref

ref列显示在key列记录的索引中,表查询值所用到的列或常量,常见的有:const(常量),字段名(例:id)。

# 8. ref:当使用索引列等值查询时,与索引列进行等值匹配的对象信息。
#比如只是一个常数或者是某个列。

mysql> EXPLAIN SELECT * FROM s1 WHERE key1 = 'a';
+----+-------------+------+------+---------------+----------+---------+-------+
| id | select_type | table| type | possible_keys | key      | key_len | ref   |
+----+-------------+------+------+---------------+----------+---------+-------+
|  1 | SIMPLE      | s1   | ref  | idx_key1      | idx_key1 | 303     | const |
+----+-------------+------+------+---------------+----------+---------+-------+

类型是type =ref,与const(常量)比较

mysql> EXPLAIN SELECT * FROM s1 INNER JOIN s2 ON s1.id = s2.id;
+---+------+--------+---------------+--------+------------------+-----
| id| table| type   | possible_keys | key    | ref              | rows
+---+------+--------+---------------+--------+------------------+-----
|  1| s1   | ALL    | PRIMARY       | NULL   | NULL             | 9895
|  1| s2   | eq_ref | PRIMARY       | PRIMARY| atguigudb1.s1.id |    1
+---+------+--------+---------------+--------+------------------+-----

类型是type =eq_ref , 与 atguigudb1.s1.id 比较

mysql> EXPLAIN SELECT * FROM s1 INNER JOIN s2 ON s2.key1 = UPPER(s1.key1);                         
+----+------+------+---------------+----------+---------+------+------+----------------------+
| id | table| type | possible_keys | key      | key_len | ref  | rows |Extra                 |
+----+------+------+---------------+----------+---------+------+------+----------------------+
|  1 | s1   | ALL  | NULL          | NULL     | NULL    | NULL | 9895 |NULL                  |
|  1 | s2   | ref  | idx_key1      | idx_key1 | 303     | func |    1 |Using index condition |
+----+------+------+---------------+----------+---------+------+------+----------------------+

与一个方法比较func

9. rows ☆☆☆☆

rows列是MySQL估计要读取并检测的行数,注意这个不是结果集里的行数。

 # 9. rows:预估的需要读取的记录条数
 # `值越小越好`
 # 通常与filtered 一起使用
 EXPLAIN SELECT * FROM s1 WHERE key1 > 'z';

rows 值越小,代表,数据越有可能在一个页里面,这样io就会更小。

10. filtered

越大越好
filtered 的值指返回结果的行占需要读到的行(rows 列的值)的百分比。

如果使用的是索引执行的单表扫描,那么计算时需要估计出满足除使用到对应索引的搜索条件外的其他搜索条件的记录有多少条。

 EXPLAIN SELECT * FROM s1 WHERE key1 > 'z' AND common_field = 'a';

image.png

对于单表查询来说,这个filtered列的值没什么意义,我们更关注在连接查询中驱动表对应的执行计划记录的filtered值,它决定了被驱动表要执行的次数(即:rows * filtered)

EXPLAIN SELECT * FROM s1 INNER JOIN s2 ON s1.key1 = s2.key1 WHERE s1.common_field = 'a';

MySQL干货详解进阶篇之三 - 图25

11. Extra ☆☆☆☆

顾名思义,Extra列是用来说明一些额外信息的,包含不适合在其他列中显示但十分重要的额外信息。我们可以通过这些额外信息来更准确的理解MySQL到底将如何执行给定的查询语句。MySQL提供的额外信息有好几十个,一下捡重点介绍

  • No tables used
    当查询语句的没有FROM子句时将会提示该额外信息,比如:
mysql> EXPLAIN SELECT 1;

MySQL干货详解进阶篇之三 - 图26

  • Impossible WHERE

查询语句的WHERE子句永远为FALSE时将会提示该额外信息

mysql> EXPLAIN SELECT * FROM s1 WHERE 1 != 1;

MySQL干货详解进阶篇之三 - 图27

  • Using where
    当我们使用全表扫描来执行对某个表的查询,并且该语句的WHERE子句中有针对该表的搜索条件时,在Extra列中会提示上述额外信息。
EXPLAIN SELECT * FROM s1 WHERE common_field = 'a';

MySQL干货详解进阶篇之三 - 图28

当条件除了索引,还有其他条件,也会是这个提示

 #当使用索引访问来执行对某个表的查询,并且该语句的`WHERE`子句中
 #有除了该索引包含的列之外的其他搜索条件时,在`Extra`列中也会提示上述额外信息。
 explain SELECT * FROM s1 WHERE key1 = 'fUhcQU' and  common_field = 'uDHCOnalcF';

MySQL干货详解进阶篇之三 - 图29

  • No matching min/max row

当查询列表处有MIN或者MAX聚合函数,但是并没有符合WHERE子句中的搜索条件的记录时,将会提示该额外信息

 # 数据库不存在 QLjKYOx
 EXPLAIN SELECT MIN(key1) FROM s1 WHERE key1 = 'QLjKYOx';

MySQL干货详解进阶篇之三 - 图30

 # 数据库存在 QLjKYO
 EXPLAIN SELECT MIN(key1) FROM s1 WHERE key1 = 'QLjKYO';

MySQL干货详解进阶篇之三 - 图31

  • Using index

当我们的查询列表以及搜索条件中只包含属于某个索引的列,也就是在可以使用覆盖索引的情况下,在Extra列将会提示该额外信息。

比方说下边这个查询中只需要用到idx_key1而不需要回表操作:

EXPLAIN SELECT key1 FROM s1 WHERE key1 = 'a';

MySQL干货详解进阶篇之三 - 图32

  • Using index condition
    有些搜索条件中虽然出现了索引列,但却不能使用到索引看课件理解索引条件下推

    SELECT * FROM s1 WHERE key1 > 'z' AND key1 LIKE '%a';
    mysql> EXPLAIN SELECT * FROM s1 WHERE key1 > 'z' AND key1 LIKE '%a';
    


    MySQL干货详解进阶篇之三 - 图33
    完整的说明:
    其中的key1 > 'z'可以使用到索引,但是key1 LIKE '%a '却无法使用到索引,在以前版本的MySQL中,是按照下边步骤来执行这个查询的:

    • 先根据key1 > ‘z’这个条件,从二级索引idx_key1中获取到对应的二级索引记录。
    • 根据上一步骤得到的二级索引记录中的主键值进行回表,找到完整的用户记录再检测该记录是否符合key1 LIKE '%a'这个条件,将符合条件的记录加入到最后的结果集。

但是虽然key1 LIKE ‘%a'不能组成范围区间参与range访问方法的执行,但这个条件毕竟只涉及到了key1列,所以MySQL把上边的步骤改进了一下:

  • 先根据key1 > 'z'这个条件,定位到二级索引idx_key1中对应的二级索引记录。
  • 对于指定的二级索引记录,先不着急回表,而是先检测一下该记录是否满足key1 LIKE ‘%a'这个条件,如果这个条件不满足,则该二级索引记录压根儿就没必要回表。
  • 对于满足key1 LIKE '%a'这个条件的二级索引记录执行回表操作。

我们说回表操作其实是一个随机IO,比较耗时,所以上述修改虽然只改进了一点点,但是可以省去好多回表操作的成本。MySQL把他们的这个改进称之为索引条件下推 (英文名: Index Condition Pushdown )。如果在查询语句的执行过程中将要使用索引条件下推这个特性,在Extra列中将会显示Using index condition

  • Using join buffer (Block Nested Loop)
    没有索引的字段进行表关联。
    在连接查询执行过程中,当被驱动表不能有效的利用索引加快访问速度,MySQL一般会为其分配一块名叫join buffer的内存块来加快查询速度,也就是我们所讲的基于块的嵌套循环算法

    mysql> EXPLAIN SELECT * FROM s1 INNER JOIN s2 ON s1.common_field = s2.common_field;
    


    MySQL干货详解进阶篇之三 - 图34

  • Not exists
    当我们使用左(外)连接时,如果WHERE子句中包含要求被驱动表的某个列等于NULL值的搜索条件,而且那个列又是不允许存储NULL值的,那么在该表的执行计划的Extra列就会提示Not exists额外信息

    EXPLAIN SELECT * FROM s1 LEFT JOIN s2 ON s1.key1 = s2.key1 WHERE s2.id IS NULL;
    # 都表关联了,,关联字段怎么会等于 is null
    


    MySQL干货详解进阶篇之三 - 图35

  • Using intersect(...) 、 Using union(...) 和 Using sort_union(...)

    • 如果执行计划的Extra列出现了Using intersect(...)提示,说明准备使用Intersect索引
    • 合并的方式执行查询,括号中的...表示需要进行索引合并的索引名称;
    • 如果出现了Using union(...)提示,说明准备使用Union索引合并的方式执行查询;
    • 出现了Using sort_union(...)提示,说明准备使用Sort-Union索引合并的方式执行查询。
      EXPLAIN SELECT * FROM s1 WHERE key1 = 'a' OR key3 = 'a';
      

      MySQL干货详解进阶篇之三 - 图36
  • Zero limit

  • Using filesort
    有一些情况下对结果集中的记录进行排序是可以使用到索引的,比如下边这个查询:

    EXPLAIN SELECT * FROM s1 ORDER BY key1 LIMIT 10;
    


    这个查询语句可以利用idx_key1索引直接取出key1列的10条记录,然后再进行回表操作就好了。但是很多情况下排序操作无法使用到索引,只能在内存中(记录较少的时候)或者磁盘中(记录较多的时候)进行排序,MySQL把这种在内存中或者磁盘上进行排序的方式统称为文件排序(英文名: filesort)。如果某个查询需要使用文件排序的方式执行查询,就会在执行计划的Extra列中显示Using filesort提示

  • Using temporary
    在许多查询的执行过程中,MySQL可能会借助临时表来完成一些功能,比如去重、排序之类的,比如我们在执行许多包含DISTINCTGROUP BYUNION等子句的查询过程中,如果不能有效利用索引来完成查询,MySQL很有可能寻求通过建立内部的临时表来执行查询。如果查询中使用到了内部的临时表,在执行计划的Extra列将会显示Using temporary提示

    EXPLAIN SELECT DISTINCT common_field FROM s1;
    


    MySQL干货详解进阶篇之三 - 图37
    MySQL干货详解进阶篇之三 - 图38

12. 小结

  • EXPLAIN不考虑各种Cache
  • EXPLAIN不能显示MySQL在执行查询时所作的优化工作
  • EXPLAIN不会告诉你关于触发器、存储过程的信息或用户自定义函数对查询的影响情况
  • 部分统计信息是估算的,并非精确值

EXPLAIN的进一步使用

7.1 EXPLAIN四种输出格式

这里谈谈EXPLAIN的输出格式。EXPLAIN可以输出四种格式: 传统格式JSON格式TREE格式 以及
视化输出 。用户可以根据需要选择适用于自己的格式。

1. 传统格式

传统格式简单明了,输出是一个表格形式,概要说明查询计划。

mysql> EXPLAIN SELECT s1.key1, s2.key1 FROM s1 LEFT JOIN s2 ON s1.key1 = s2.key1 WHERE
s2.common_field IS NOT NULL;  
+----+-------------+-------+------------+------+---------------+-------
| id | select_type | table | partitions | type | possible_keys | key   
+----+-------------+-------+------------+------+---------------+-------
|  1 | SIMPLE      | s2    | NULL       | ALL  | idx_key1      | NULL  
|  1 | SIMPLE      | s1    | NULL       | ref  | idx_key1      | idx_ke
+----+-------------+-------+------------+------+---------------+-------
2 rows in set, 1 warning (0.00 sec)

2. JSON格式

第1种格式中介绍的EXPLAIN语句输出中缺少了一个衡量执行计划好坏的重要属性——成本。而JSON格式是四种格式里面输出信息最详尽的格式,里面包含了执行的成本信息。

  • JSON格式:在EXPLAIN单词和真正的查询语句中间加上 FORMAT=JSON
    EXPLAIN FORMAT=JSON SELECT ....
    
  • EXPLAIN的Column与JSON的对应关系:(来源于MySQL 5.7文档)

image.png
这样我们就可以得到一个json格式的执行计划,里面包含该计划花费的成本,比如这样:

mysql> EXPLAIN FORMAT=JSON SELECT * FROM s1 INNER JOIN s2 ON s1.key1 = s2.key2 WHERE s1.common_field = 'a' \G
*************************** 1. row ***************************
EXPLAIN: {
  "query_block": {
    "select_id": 1,
    "cost_info": {
      "query_cost": "1360.07"
    },
    "nested_loop": [
      {
        "table": {
          "table_name": "s1",
          "access_type": "ALL",
          "possible_keys": [
            "idx_key1"
          ],
          "rows_examined_per_scan": 9895,
          "rows_produced_per_join": 989,
          "filtered": "10.00",
          "cost_info": {
            "read_cost": "914.80",
            "eval_cost": "98.95",
            "prefix_cost": "1013.75",
            "data_read_per_join": "1M"
          },
          "used_columns": [
            "id",
            "key1",
            "key2",
            "key3",
            "key_part1",
            "key_part2",
            "key_part3",
            "common_field"
          ],
          "attached_condition": "((`atguigudb1`.`s1`.`common_field` = 'a') and (`atguigudb1`.`s1`.`key1` is not null))"
        }
      },
      {
        "table": {
          "table_name": "s2",
          "access_type": "eq_ref",
          "possible_keys": [
            "idx_key2"
          ],
          "key": "idx_key2",
          "used_key_parts": [
            "key2"
          ],
          "key_length": "5",
          "ref": [
            "atguigudb1.s1.key1"
          ],
          "rows_examined_per_scan": 1,
          "rows_produced_per_join": 989,
          "filtered": "100.00",
          "index_condition": "(cast(`atguigudb1`.`s1`.`key1` as double) = cast(`atguigudb1`.`s2`.`key2` as double))",
          "cost_info": {
            "read_cost": "247.38",
            "eval_cost": "98.95",
            "prefix_cost": "1360.08",
            "data_read_per_join": "1M"
          },
          "used_columns": [
            "id",
            "key1",
            "key2",
            "key3",
            "key_part1",
            "key_part2",
            "key_part3",
            "common_field"
          ]
        }
      }
    ]
  }
}
1 row in set, 2 warnings (0.01 sec)

image.png
我们使用 # 后边跟随注释的形式为大家解释了 EXPLAIN FORMAT=JSON 语句的输出内容,但是大家可能
有疑问 “cost_info“ 里边的成本看着怪怪的,它们是怎么计算出来的?先看 s1 表的 “cost_info“ 部
分:

"cost_info": {
    "read_cost": "914.80",
    "eval_cost": "98.95",
    "prefix_cost": "1013.75",
    "data_read_per_join": "1M"
}
  • read_cost 是由下边这两部分组成的:

    • IO 成本
    • 检测 rows × (1 - filter) 条记录的 CPU 成本

      小贴士: rows和filter都是我们前边介绍执行计划的输出列,在JSON格式的执行计划中,rows相当于rows_examined_per_scan,filtered名称不变。

  • eval_cost 是这样计算的
    检测 rows × filter 条记录的成本。

  • prefix_cost 就是单独查询 s1 表的成本,也就是:
    read_cost + eval_cost
  • data_read_per_join 表示在此次查询中需要读取的数据量。

对于 s2 表的 “cost_info” 部分是这样的:

"cost_info": {
    "read_cost": "247.38",
    "eval_cost": "98.95",
    "prefix_cost": "1360.08",
    "data_read_per_join": "1M"
}

由于 s2 表是被驱动表,所以可能被读取多次,这里的 read_costeval_cost 是访问多次 s2 表后累
加起来的值,大家主要关注里边儿的 prefix_cost 的值代表的是整个连接查询预计的成本,也就是单
次查询 s1 表和多次查询 s2 表后的成本的和,也就是 :

247.38 + 98.95 + 1013.75 = 1360.08

3. TREE格式

TREE格式是8.0.16版本之后引入的新格式,主要根据查询的 各个部分之间的关系各部分的执行顺序 来描
述如何查询

mysql> EXPLAIN FORMAT=tree SELECT * FROM s1 INNER JOIN s2 ON s1.key1 = s2.key2 WHERE s1.common_field = 'a'\G
*************************** 1. row ***************************
EXPLAIN: -> Nested loop inner join  (cost=1360.08 rows=990)
    -> Filter: ((s1.common_field = 'a') and (s1.key1 is not null))  (cost=1013.75 rows=990)
        -> Table scan on s1  (cost=1013.75 rows=9895)
    -> Single-row index lookup on s2 using idx_key2 (key2=s1.key1), with index condition: (cast(s1.key1 as double) = cast(s2.key2 as double))  (cost=0.25 rows=1)

1 row in set, 1 warning (0.00 sec)

4. 可视化输出

可视化输出,可以通过MySQL Workbench可视化查看MySQL的执行计划。通过点击Workbench的放大镜图
标,即可生成可视化的查询计划。
image.png
上图按从左到右的连接顺序显示表。红色框表示 全表扫描 ,而绿色框表示使用 索引查找 。对于每个表,显示使用的索引。还要注意的是,每个表格的框上方是每个表访问所发现的行数的估计值以及访问该表的成本。

7.2 SHOW WARNINGS的使用

mysql> EXPLAIN SELECT s1.key1, s2.key1 FROM s1 LEFT JOIN s2 ON s1.key1 = s2.key1 WHERE
s2.common_field IS NOT NULL;

使用完explain 后紧接着使用 SHOW WARNINGS \G

mysql> SHOW WARNINGS\G
*************************** 1. row ***************************
  Level: Note
   Code: 1003
Message: /* select#1 */ select `atguigudb1`.`s1`.`key1` AS `key1`,`atguigudb1`.`s2`.`key1` AS `key1` from `atguigudb1`.`s1` join `atguigudb1`.`s2` where ((`atguigudb1`.`s1`.`key1` = `atguigudb1`.`s2`.`key1`) and (`atguigudb1`.`s2`.`common_field` is not null))
1 row in set (0.00 sec)

可以看到查询优化器真正执行的语句

粘出来并不一定可以运行

大家可以看到SHOW WARNINGS展示出来的信息有三个字段,分别是LevelCodeMessage。我们最常见的
就是Code为1003的信息,当Code值为1003时,Message字段展示的信息类似于查询优化器将我们的查询语句重写后的语句。比如我们上边的查询本来是一个左(外)连接查询,但是有一个s2.common_field IS NOT NULL的条件,这就会导致查询优化器把左(外)连接查询优化为内连接查询,从 SHOW WARNINGSMessage字段也可以看出来,原本的LEFT JOIN已经变成了JOIN(内连接)。

分析优化器执行计划:trace

OPTIMIZER_TRACE 是MySQL 5.6引入的一项跟踪功能,它可以跟踪优化器做出的各种决策(比如访问表的方法、各种开销计算、各种转换等),并将跟踪结果记录到INFORMATION_SCHEMA.OPTIMIZER_TRACE表中。

此功能默认关闭。开启trace,并设置格式为JSON,同时设置trace最大能够使用的内存大小,避免解析过程中因为默认内存过小而不能够完整展示。

SET optimizer_trace="enabled=on",end_markers_in_json=on;

set optimizer_trace_max_mem_size=1000000;

开启后,可分析如下语句:

  • SELECT
  • INSERT
  • REPLACE
  • UPDATE
  • DELETE
  • EXPLAIN
  • SET
  • DECLARE
  • CASE
  • IF
  • RETURN
  • CALL

测试:执行如下SQL语句

select * from student where id < 10;

最后, 查询 information_schema.optimizer_trace 就可以知道MySQL是如何执行SQL的 :

select * from information_schema.optimizer_trace\G
mysql> select * from information_schema.optimizer_trace\G
*************************** 1. row ***************************
# //第1部分:查询语句
QUERY: select * from student where id < 10
//第2部分:QUERY字段对应语句的跟踪信息
TRACE: {
  "steps": [
    {
      "join_preparation": { /*预备工作*/
        "select#": 1,
        "steps": [
          {
            "expanded_query": "/* select#1 */ select `student`.`id` AS `id`,`student`.`stuno` AS `stuno`,`student`.`name` AS `name`,`student`.`age` AS `age`,`student`.`classId` AS `classId` from `student` where (`student`.`id` < 10)"
          }
        ] /* steps */
      } /* join_preparation */
    },
    {
      "join_optimization": {/*进行优化*/
        "select#": 1,
        "steps": [
          {
            "condition_processing": {/*条件处理*/
              "condition": "WHERE",
              "original_condition": "(`student`.`id` < 10)",
              "steps": [
                {
                  "transformation": "equality_propagation",
                  "resulting_condition": "(`student`.`id` < 10)"
                },
                {
                  "transformation": "constant_propagation",
                  "resulting_condition": "(`student`.`id` < 10)"
                },
                {
                  "transformation": "trivial_condition_removal",
                  "resulting_condition": "(`student`.`id` < 10)"
                }
              ] /* steps */
            } /* condition_processing */
          },
          {
            "substitute_generated_columns": {/*替换生成的列*/
            } /* substitute_generated_columns */
          },
          {
            "table_dependencies": [   /* 表的依赖关系*/
              {
                "table": "`student`",
                "row_may_be_null": false,
                "map_bit": 0,
                "depends_on_map_bits": [
                ] /* depends_on_map_bits */
              }
            ] /* table_dependencies */
          },
          {
            "ref_optimizer_key_uses": [ /* 使用键*/
            ] /* ref_optimizer_key_uses */
          },
          {
            "rows_estimation": [ /*行判断*/
              {
                "table": "`student`",
                "range_analysis": {
                  "table_scan": {
                    "rows": 3945207,
                    "cost": 404306
                  } /* table_scan */,/*表扫描*/
                  "potential_range_indexes": [
                    {
                      "index": "PRIMARY",
                      "usable": true,
                      "key_parts": [
                        "id"
                      ] /* key_parts */
                    }
                  ] /* potential_range_indexes */,
                  "setup_range_conditions": [ 
                  ] /* 设置条件范围 */,
                  "group_index_range": {
                    "chosen": false,
                    "cause": "not_group_by_or_distinct"
                  } /* group_index_range */,
                  "skip_scan_range": {
                    "potential_skip_scan_indexes": [
                      {
                        "index": "PRIMARY",
                        "usable": false,
                        "cause": "query_references_nonkey_column"
                      }
                    ] /* potential_skip_scan_indexes */
                  } /* skip_scan_range */,
                  "analyzing_range_alternatives": {/*分析范围选项*/
                    "range_scan_alternatives": [
                      {
                        "index": "PRIMARY",
                        "ranges": [
                          "id < 10"
                        ] /* ranges */,
                        "index_dives_for_eq_ranges": true,
                        "rowid_ordered": true,
                        "using_mrr": false,
                        "index_only": false,
                        "in_memory": 0.159895,
                        "rows": 9,
                        "cost": 1.79883,
                        "chosen": true
                      }
                    ] /* range_scan_alternatives */,
                    "analyzing_roworder_intersect": {
                      "usable": false,
                      "cause": "too_few_roworder_scans"
                    } /* analyzing_roworder_intersect */
                  } /* analyzing_range_alternatives */,
                  "chosen_range_access_summary": {/*选择范围访问摘要*/
                    "range_access_plan": {
                      "type": "range_scan",
                      "index": "PRIMARY",
                      "rows": 9,
                      "ranges": [
                        "id < 10"
                      ] /* ranges */
                    } /* range_access_plan */,
                    "rows_for_plan": 9,
                    "cost_for_plan": 1.79883,
                    "chosen": true
                  } /* chosen_range_access_summary */
                } /* range_analysis */
              }
            ] /* rows_estimation */
          },
          {
            "considered_execution_plans": [/*考虑执行计划*/
              {
                "plan_prefix": [
                ] /* plan_prefix */,
                "table": "`student`",
                "best_access_path": {/*最佳访问路径*/
                  "considered_access_paths": [
                    {
                      "rows_to_scan": 9,
                      "access_type": "range",
                      "range_details": {
                        "used_index": "PRIMARY"
                      } /* range_details */,
                      "resulting_rows": 9,
                      "cost": 2.69883,
                      "chosen": true
                    }
                  ] /* considered_access_paths */
                } /* best_access_path */,
                "condition_filtering_pct": 100, /*行过滤百分比*/
                "rows_for_plan": 9,
                "cost_for_plan": 2.69883,
                "chosen": true
              }
            ] /* considered_execution_plans */
          },
          {
            "attaching_conditions_to_tables": { /*将条件附加到表上*/
              "original_condition": "(`student`.`id` < 10)",
              "attached_conditions_computation": [
              ] /* attached_conditions_computation */,
              "attached_conditions_summary": [ /*附加条件概要*/
                {
                  "table": "`student`",
                  "attached": "(`student`.`id` < 10)"
                }
              ] /* attached_conditions_summary */
            } /* attaching_conditions_to_tables */
          },
          {
            "finalizing_table_conditions": [
              {
                "table": "`student`",
                "original_table_condition": "(`student`.`id` < 10)",
                "final_table_condition   ": "(`student`.`id` < 10)"
              }
            ] /* finalizing_table_conditions */
          },
          {
            "refine_plan": [ /*精简计划*/
              {
                "table": "`student`"
              }
            ] /* refine_plan */
          }
        ] /* steps */
      } /* join_optimization */
    },
    {
      "join_execution": {  /*执行*/
        "select#": 1,
        "steps": [
        ] /* steps */
      } /* join_execution */
    }
  ] /* steps */
}
/
/*第3部分:跟踪信息过长时,被截断的跟踪信息的字节数。*/
MISSING_BYTES_BEYOND_MAX_MEM_SIZE: 0 /*丢失的超出最大容量的字节*/
/*第4部分:执行跟踪语句的用户是否有查看对象的权限。当不具有权限时,该列信息为1且TRACE字段为空,一般在
调用带有SQL SECURITY DEFINER的视图或者是存储过程的情况下,会出现此问题。*/
INSUFFICIENT_PRIVILEGES: 0 /*缺失权限*/
1 row in set (0.01 sec)

9. MySQL监控分析视图-sys schema

9.1 Sys schema视图摘要

1. 主机相关:以host_summary开头,主要汇总了IO延迟的信息。

2. Innodb相关:以innodb开头,汇总了innodb buffer信息和事务等待innodb锁的信息。

3. I/o相关:以io开头,汇总了等待I/O、I/O使用量情况。

4.内存使用情况:以memory开头,从主机、线程、事件等角度展示内存的使用情况

5.连接与会话信息:processlist和session相关视图,总结了会话相关信息。

6. 表相关:以schema_table开头的视图,展示了表的统计信息。

7. 索引信息:统计了索引的使用情况,包含冗余索引和未使用的索引情况。

8.语句相关:以statement开头,包含执行全表扫描、使用临时表、排序等的语句信息。

9. 用户相关:以user开头的视图,统计了用户使用的文件I/O、执行语句统计信息。

10.等待事件相关信息:以wait开头,展示等待事件的延迟情况。

9.2 Sys schema视图使用场景

索引情况

#1. 查询冗余索引
select * from sys.schema_redundant_indexes;
#2. 查询未使用过的索引
select * from sys.schema_unused_indexes;
#3. 查询索引的使用情况
select index_name,rows_selected,rows_inserted,rows_updated,rows_deleted
from sys.schema_index_statistics where table_schema='dbname' ;

表相关

# 1. 查询表的访问量
select table_schema,table_name,sum(io_read_requests+io_write_requests) as io from
sys.schema_table_statistics group by table_schema,table_name order by io desc;
# 2. 查询占用bufferpool较多的表
select object_schema,object_name,allocated,data
from sys.innodb_buffer_stats_by_table order by allocated limit 10;
# 3. 查看表的全表扫描情况
select * from sys.statements_with_full_table_scans where db='dbname';

语句相关

#1. 监控SQL执行的频率
select db,exec_count,query from sys.statement_analysis
order by exec_count desc;
#2. 监控使用了排序的SQL
select db,exec_count,first_seen,last_seen,query
from sys.statements_with_sorting limit 1;
#3. 监控使用了临时表或者磁盘临时表的SQL
select db,exec_count,tmp_tables,tmp_disk_tables,query
from sys.statement_analysis where tmp_tables>0 or tmp_disk_tables >0
order by (tmp_tables+tmp_disk_tables) desc;

IO 相关

#1. 查看消耗磁盘IO的文件
select file,avg_read,avg_write,avg_read+avg_write as avg_io
from sys.io_global_by_file_by_bytes order by avg_read limit 10;

Innodb 相关

#1. 行锁阻塞情况
select * from sys.innodb_lock_waits;

风险提示:

通过sys库去查询时,MySQL会消耗大量资源去收集相关信息,严重的可能会导致业务请求被阻塞,从而引起故障。建议生产上不要频繁的去查询sys或者performance_schema、information_schema来完成监控、巡检等工作。

2、索引优化与查询优化

我们可以从哪些维度进行数据库调优 呢?

  • 索引失效、没有充分利用到索引——索引建立
  • 关联查询太多JOIN (设计缺陷或不得已的需求)——SQL优化
  • 服务器调优及各个参数设置(缓冲、线程数等)———调整my.cnf。
  • 数据过多――分库分表

关于数据库调优的知识点非常分散。不同的DBMS,不同的公司,不同的职位,不同的项目遇到的问题都不尽相同。这里我们分为三个章节进行细致讲解。
虽然SQL查询优化的技术有很多,但是大方向上完全可以分成物理查询优化逻辑查询优化两大块。

  • 物理查询优化是通过索引表连接方式等技术来进行优化,这里重点需要掌握索引的使用。
  • 逻辑查询优化就是通过SQL等价变换提升查询效率,直白一点就是说,换一种查询写法执行效率可能更高。

    1. 数据准备

学员表插 50万 条, 班级表 插 1万 条。

步骤1:建表

CREATE TABLE `class` (
  `id` INT(11) NOT NULL AUTO_INCREMENT,
  `className` VARCHAR(30) DEFAULT NULL,
  `address` VARCHAR(40) DEFAULT NULL,
  `monitor` INT NULL ,
  PRIMARY KEY (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

CREATE TABLE `student` (
  `id` INT(11) NOT NULL AUTO_INCREMENT,
  `stuno` INT NOT NULL ,
  `name` VARCHAR(20) DEFAULT NULL,
  `age` INT(3) DEFAULT NULL,
  `classId` INT(11) DEFAULT NULL,
  PRIMARY KEY (`id`)
  #CONSTRAINT `fk_class_id` FOREIGN KEY (`classId`) REFERENCES `t_class` (`id`)
) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

步骤2:设置参数
命令开启:允许创建函数设置 :

set global log_bin_trust_function_creators=1; # 不加global只是当前窗口有效。

步骤3:创建函数
保证每条数据都不同

#随机产生字符串
DELIMITER //
CREATE FUNCTION rand_string(n INT) RETURNS VARCHAR(255)
BEGIN
DECLARE chars_str VARCHAR(100) DEFAULT
'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ';
DECLARE return_str VARCHAR(255) DEFAULT '';
DECLARE i INT DEFAULT 0;
WHILE i < n DO
SET return_str =CONCAT(return_str,SUBSTRING(chars_str,FLOOR(1+RAND()*52),1));
SET i = i + 1;
END WHILE;
RETURN return_str;
END //
DELIMITER ;
#假如要删除
#drop function rand_string;

随机产生班级编号

#用于随机产生多少到多少的编号
DELIMITER //
CREATE FUNCTION rand_num (from_num INT ,to_num INT) RETURNS INT(11)
BEGIN
DECLARE i INT DEFAULT 0;
SET i = FLOOR(from_num +RAND()*(to_num - from_num+1)) ;
RETURN i;
END //
DELIMITER ;

#假如要删除
#drop function rand_num;

步骤4:创建存储过程

#创建往stu表中插入数据的存储过程
DELIMITER //
CREATE PROCEDURE insert_stu( START INT , max_num INT )
BEGIN
DECLARE i INT DEFAULT 0;
SET autocommit = 0; #设置手动提交事务
REPEAT #循环
SET i = i + 1; #赋值
INSERT INTO student (stuno, name ,age ,classId ) VALUES
((START+i),rand_string(6),rand_num(1,50),rand_num(1,1000));
UNTIL i = max_num
END REPEAT;
COMMIT; #提交事务
END //
DELIMITER ;
#假如要删除
#drop PROCEDURE insert_stu;

创建往class表中插入数据的存储过程

#执行存储过程,往class表添加随机数据
DELIMITER //
CREATE PROCEDURE `insert_class`( max_num INT )
BEGIN
DECLARE i INT DEFAULT 0;
SET autocommit = 0;
REPEAT
SET i = i + 1;
INSERT INTO class ( classname,address,monitor ) VALUES
(rand_string(8),rand_string(10),rand_num(1,100000));
UNTIL i = max_num
END REPEAT;
COMMIT;
END //
DELIMITER ;
#假如要删除
#drop PROCEDURE insert_class;

步骤5:调用存储过程

#执行存储过程,往class表添加1万条数据
CALL insert_class(10000);

#执行存储过程,往stu表添加50万条数据
CALL insert_stu(100000,500000);
CALL insert_stu(600000,1000000);

步骤6:删除某表上的索引
功能是传递两个参数:一个是数据库名一个是表名,删除这个表中所有的索引保留主键删除
创建存储过程

DELIMITER //
CREATE PROCEDURE `proc_drop_index`(dbname VARCHAR(200),tablename VARCHAR(200))
BEGIN
DECLARE done INT DEFAULT 0;
DECLARE ct INT DEFAULT 0;
DECLARE _index VARCHAR(200) DEFAULT '';
DECLARE _cur CURSOR FOR SELECT index_name FROM
information_schema.STATISTICS WHERE table_schema=dbname AND table_name=tablename AND
seq_in_index=1 AND index_name <>'PRIMARY' ;
#每个游标必须使用不同的declare continue handler for not found set done=1来控制游标的结束
DECLARE CONTINUE HANDLER FOR NOT FOUND set done=2 ;
#若没有数据返回,程序继续,并将变量done设为2
OPEN _cur;
FETCH _cur INTO _index;
WHILE _index<>'' DO
SET @str = CONCAT("drop index " , _index , " on " , tablename );
PREPARE sql_str FROM @str ;
EXECUTE sql_str;
DEALLOCATE PREPARE sql_str;
SET _index='';
FETCH _cur INTO _index;
END WHILE;
CLOSE _cur;
END //
DELIMITER ;

执行存储过程(先不执行,后面需要的时候再执行)

CALL proc_drop_index("dbname","tablename");

2. 索引失效案例

MySQL中**提高性能**的一个最有效的方式是对数据表**设计合理的索引**索引提供了高效访问数据的方法,并且加快查询的速度,因此索引对查询的速度有着至关重要的影响。

  • 使用索引可以**快速地定位**表中的某条记录,从而提高数据库查询的速度,提高数据库的性能。
  • 如果查询时没有使用索引,查询语句就会**扫描表中的所有记录**。在数据量大的情况下,这样查询的速度会很慢。

大多数情况下都(默认)采用B+树来构建索引。只是空间列类型的索引使用R-树,并且MEMORY表还支持hash索引

其实,用不用索引,最终都是优化器说了算。就比如说你不用索引比用了索引速度还快,那你还用索引干什么呢?
优化器是基于什么进行选择的呢?
其实是 基于cost开销(CostBaseOptimizer)的,它不是基于规则(Rule-BasedOptimizer),也不是基于语义它是怎么样开销小就怎么来
另外,SQL语句是否使用索引,跟数据库版本、数据量、数据选择度都有关系。

这个开销并不是基于时间

2.1 全值匹配我最爱

意思是创建联合索引多个索引同时生效。
系统中经常出现的sql语句如下:

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30;
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30 and classId=4;
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30 and classId=4 AND name = 'abcd';

建立索引前执行:(关注执行时间)
image.png
建立索引(创建索引后底层的idb文件又变大了,因为索引也存储在文件中)

CREATE INDEX idx_age ON student(age ) ;

CREATE INDEX idx_age_classid ON student( age , classId);

CREATE INDEX idx_age_classid_name ON student( age , classId , name) ;

建立索引后再次查询
image.png
可以看到,创建索引后索引帮助我们极大的提高了查询效率。

2.2 最佳左前缀法则

在MySQL建立联合索引时会遵守最佳左前缀匹配原则,即最左优先,在检索数据时从联合索引的最左边开始匹配。
举例1:

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age=30 AND student.name = 'abcd';
# 走`idx_age_classid_name`   使用了Using index condition

举例2:

#之前我们使用下面语句创建了一个联合索引
#CREATE INDEX idx_age_classid_name ON student( age , classId , name) ;

# 那为什么执行下面语句的时候没有索引匹配上,也就是没有使用索引呢?
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.classid=1 AND student.name = 'abcd' ;

image.png
因为这里面包含了 一个 最左前缀法则:即如果索引了多列(创建了联合索引),就要遵守最左前缀法则。最左前缀法则指的是查询从索引的最左列开始, 并且不跳过索引中的列。如果跳跃某一列,索引将会部分失效(后面的字段索引失效)。
例子中的该语句直接跳过了联合索引中的第一个age,那么age后面的索引将都失效。所以这里并没有使用索引。
换一种思路理解,创建了这个联合索引( age , classId , name)之后,在查询的时候会先匹配age,在age相等的情况下才会去匹配classId ,你跳过了age列上来就用classId ,肯定不能使用联合索引了。

举例3:索引idx_age_classid_name还能否正常使用? 能正常使用,跳过并不是指它们在where字句中的顺序,而是说在where是否出现,即没出现就是跳过,跟顺序无关。

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE classid=4 and student.age=30 AND student.name = 'abcd' ;

如果索引了多列,要遵守最左前缀法则。指的是查询从索引的最左前列开始并且不跳过索引中的列。

mysq1> EXPLAIN SELECT SQL_NO_CACHE* FROM student WHERE student.age=30 AND student.name ='abcd';

image.png

结论:MySQL可以为多个字段创建索引,一个索引最多可以包括16个字段。对于多列索引,过滤条件要使用索引必须按照索引建立时的顺序,依次满足,一旦跳过某个字段,索引后面的字段都无法被使用。如果查询条件中没有使用这些字段中第1个字段时,多列(或联合)索引不会被使用。

拓展:Alibaba《Java开发手册》

索引文件具有 B-Tree 的最左前缀匹配特性,如果左边的值未确定,那么无法使用此索引。

2.3 主键插入顺序

对于一个使用InnoDB存储引擎的表来说,表中的数据实际上都是存储在聚簇索引的叶子节点的。而记录又是存储在数据页中的,数据页和记录又是按照记录主键值从小到大的顺序进行排序,所以如果我们**插入**的记录的**主键值是依次增大**的话,那我们每插满一个数据页就换到下一个数据页继续插,而如果我们插入的主键值忽大忽小的话,就比较麻烦了,假设某个数据页存储的记录已经满了,它存储的主键值在1~100之间:
image.png

如果此时再插入一条主键值为 9 的记录,而我们页中的数据默认是升序的,那它插入的位置就如下图:
image.png
可这个数据页已经满了,再插进来咋办呢?我们需要把当前 页面分裂 成两个页面,把本页中的一些记录
移动到新创建的这个页中。页面分裂和记录移位意味着什么?意味着: 性能损耗 !所以如果我们想尽量
避免这样无谓的性能损耗,最好让插入的记录的 主键值依次递增 ,这样就不会发生这样的性能损耗了。

所以我们建议:让主键具有 AUTO_INCREMENT (要求该列是主键或唯一),让存储引擎自己为表生成主键,而不是我们手动插入 ,
比如: person_info 表:

CREATE TABLE person_info(
    id INT UNSIGNED NOT NULL AUTO_INCREMENT,
    name VARCHAR(100) NOT NULL,
    birthday DATE NOT NULL,
    phone_number CHAR(11) NOT NULL,
    country varchar(100) NOT NULL,
    PRIMARY KEY (id),
    KEY idx_name_birthday_phone_number (name(10), birthday, phone_number)
);

我们自定义的主键列 **id** 拥有 **AUTO_INCREMENT** 属性,在插入记录时存储引擎会自动为我们填入自增的
主键值。这样的主键占用空间小,顺序写入,减少页分裂。

2.4 计算、函数导致索引失效(小心)

1.这两条sql哪种写法更好

#两条sql的作用都一样

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE 'abc%';

# 这个索引失效。因为用上函数了,使用了函数之后会遍历完 全表 中的每一个字段与abc进行比较
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) = 'abc';

2.创建索引

CREATE INDEX idx_sno ON student (stuno) ;

3.第一种情况:索引优化生效

mysql> SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE 'abc%';
+---------+---------+--------+------+---------+
| id | stuno | name | age | classId |
+---------+---------+--------+------+---------+
| 5301379 | 1233401 | AbCHEa | 164 | 259 |
| 7170042 | 3102064 | ABcHeB | 199 | 161 |
| 1901614 | 1833636 | ABcHeC | 226 | 275 |
| 5195021 | 1127043 | abchEC | 486 | 72 |
| 4047089 | 3810031 | AbCHFd | 268 | 210 |
| 4917074 | 849096 | ABcHfD | 264 | 442 |
| 1540859 | 141979 | abchFF | 119 | 140 |
| 5121801 | 1053823 | AbCHFg | 412 | 327 |
| 2441254 | 2373276 | abchFJ | 170 | 362 |
| 7039146 | 2971168 | ABcHgI | 502 | 465 |
| 1636826 | 1580286 | ABcHgK | 71 | 262 |
| 374344 | 474345 | abchHL | 367 | 212 |
| 1596534 | 169191 | AbCHHl | 102 | 146 |
...
| 5266837 | 1198859 | abclXe | 292 | 298 |
| 8126968 | 4058990 | aBClxE | 316 | 150 |
| 4298305 | 399962 | AbCLXF | 72 | 423 |
| 5813628 | 1745650 | aBClxF | 356 | 323 |
| 6980448 | 2912470 | AbCLXF | 107 | 78 |
| 7881979 | 3814001 | AbCLXF | 89 | 497 |
| 4955576 | 887598 | ABcLxg | 121 | 385 |
| 3653460 | 3585482 | AbCLXJ | 130 | 174 |
| 1231990 | 1283439 | AbCLYH | 189 | 429 |
| 6110615 | 2042637 | ABcLyh | 157 | 40 |
+---------+---------+--------+------+---------+
401 rows in set, 1 warning (0.01 sec)

第二种:索引优化失效(使用函数)

mysql> SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) = 'abc';
+---------+---------+--------+------+---------+
| id | stuno | name | age | classId |
+---------+---------+--------+------+---------+
| 5301379 | 1233401 | AbCHEa | 164 | 259 |
| 7170042 | 3102064 | ABcHeB | 199 | 161 |
| 1901614 | 1833636 | ABcHeC | 226 | 275 |
| 5195021 | 1127043 | abchEC | 486 | 72 |
| 4047089 | 3810031 | AbCHFd | 268 | 210 |
| 4917074 | 849096 | ABcHfD | 264 | 442 |
| 1540859 | 141979 | abchFF | 119 | 140 |
| 5121801 | 1053823 | AbCHFg | 412 | 327 |
| 2441254 | 2373276 | abchFJ | 170 | 362 |
| 7039146 | 2971168 | ABcHgI | 502 | 465 |
| 1636826 | 1580286 | ABcHgK | 71 | 262 |
| 374344 | 474345 | abchHL | 367 | 212 |
| 1596534 | 169191 | AbCHHl | 102 | 146 |
...
| 5266837 | 1198859 | abclXe | 292 | 298 |
| 8126968 | 4058990 | aBClxE | 316 | 150 |
| 4298305 | 399962 | AbCLXF | 72 | 423 |
| 5813628 | 1745650 | aBClxF | 356 | 323 |
| 6980448 | 2912470 | AbCLXF | 107 | 78 |
| 7881979 | 3814001 | AbCLXF | 89 | 497 |
| 4955576 | 887598 | ABcLxg | 121 | 385 |
| 3653460 | 3585482 | AbCLXJ | 130 | 174 |
| 1231990 | 1283439 | AbCLYH | 189 | 429 |
| 6110615 | 2042637 | ABcLyh | 157 | 40 |
+---------+---------+--------+------+---------+
401 rows in set, 1 warning (3.62 sec)

type为“ALL”,表示没有使用到索引,查询时间为 3.62 秒,查询效率较之前低很多。

再举例:

  • student表的字段stuno上设置有索引 ,但是sql语句涉及计算导致索引失效 ``` CREATE INDEX idx_sno ON student(stuno);

EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno+1 = 900001;

<br />运行结果:<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653486318074-a51431be-f77d-4f2f-a79c-fee7c3255008.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=99&id=u163e37e6&name=image.png&originHeight=124&originWidth=1266&originalType=binary&ratio=1&rotation=0&showTitle=false&size=50110&status=done&style=none&taskId=ub676278f-b0cb-4890-b3f9-7fe2708ed7d&title=&width=1012.8)<br />**类型是ALL原因是计算导致了索引失效。 **

-  索引优化生效(没有计算的情况):

EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno = 900000;

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653486405408-588e14b4-52ad-4d4e-8f98-0b8ac836cb25.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=118&id=ue25c9460&name=image.png&originHeight=147&originWidth=1229&originalType=binary&ratio=1&rotation=0&showTitle=false&size=45695&status=done&style=none&taskId=u1125eb93-a8c2-4ec7-a153-9d771b30478&title=&width=983.2)<br />**再举例:**

-  student表的字段name上设置有索引

CREATE INDEX idx_sno ON student (stuno) ; # 上面已经运行过了


-  索引失效的情况:

EXPLAIN SELECT id,stuno,name FROM student WHERE SUBSTRING( name,1,3)=’abc’;

使用函数导致失效,可以改用like abc%

 ![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653486517552-6661f403-f29e-47a0-91a0-71d68c9a6ba6.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=107&id=u5dace097&name=image.png&originHeight=134&originWidth=1299&originalType=binary&ratio=1&rotation=0&showTitle=false&size=50651&status=done&style=none&taskId=u38f1066c-5282-4e21-88a6-68e5969c460&title=&width=1039.2)

<a name="7235e182"></a>
### 2.5 类型转换(自动或手动)导致索引失效

下列哪个sql语句可以用到索引。(假设name字段上设置有索引)

未使用到索引的情况(索引失效)

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name=123;

因为name是字符串类型的,而name=123涉及到类型转换,这会导致索引失效



将匹配条件换回字符串形式就可以使用到索引了。

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name=’123’;


<a name="bf49ab16"></a>
### 2.6 范围条件右边的列索引失效

查询数据表中存在的索引

SHOW INDEX FROM student;

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653486912667-82e3660f-db27-44b2-a198-a8e42721ca08.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=182&id=uf7d7c2a2&name=image.png&originHeight=228&originWidth=1480&originalType=binary&ratio=1&rotation=0&showTitle=false&size=119489&status=done&style=none&taskId=ue7c1efc6-82be-44d7-b207-c97a9518959&title=&width=1184)<br />有些索引的存在可能会干扰之后的操作,这个时候我们就可以调用之前创建的存储过程了。
```sql
//调用存储过程删除表中的索引,只保留主键索引
CALL proc_drop_index('atguigudb','student');

show index from student;

#重新创建一个索引
 CREATE INDEX idx_age_classId_name ON student(age,classId,NAME);

#执行查询语句,下面两条语句的结果都一样(关键是创建联合索引时的顺序)
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age=30 AND student.classId>20 AND student.name = 'abc' ;
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age=30 AND student.name = 'abc' AND student.classId>20 ;
#之所以这两条语句的结果一样,这是因为在优化器时期,优化器无所谓where条件中哪个先写,它会默认
将条件进行交换,将等值的情况往前移。主要看的是索引的顺序,因为它不能随意移动索引的顺序
。

image.png
可以看到索引长度key_len为10,在创建的联合索引中age索引长度是5,classId也是5,很明显name索引没有用上。
因为该查询语句用上了范围查找,在范围查找的索引后面的索引就失效了。
什么意思呢?我们的联合索引是这样的(age,classId,NAME),
sql语句中的条件是WHERE student.age=30 AND student.classId>20 AND student.name = 'abc' ;
那什么叫范围查询后的索引失效了? sql语句中使用到的age、classId两个范围,而且结合最左前缀法则,age、classId是在前面的,name在后面,虽然没有跳过联合索引中的某一个,但是由于使用到了范围查询,会使后面的索引失效,也就是使classId后面的name失效了。

tips : 因为范围条件导致的索引失效,可以考虑把确定的索引放在前面。 例如上面这个例子, 这里在创建索引的时候name 放在了范围查找 classId前面。索引就能生效了。

create index idx_age_name_cid on student(age, name, classId);

哪些属于范围?

  1. 大于等于,大于,小于等于,小于
  2. between

    应用开发中范围查询,例如: 金额查询,日期查询往往都是范围查询。创建联合索引时考虑放在后面。

2.7 不等于(!= 或者<>)索引失效

失效的原因跟上面类似,从索引的结构B+树考虑,由于不等于的结果是不确定的,在搜索的过程中只能遍历B+树才能找到可能的结果;
B+树的搜索过程有点类似二分的过程,既然你的比较结果是不确定的,又怎么能使用二分法呢?不能使用二分法那B+树这个索引结构就没有用了。
比如:

  • 为name字段创建索引

    CREATE INDEX idx_name ON student(NAME);
    
  • 查看索引是否失效

    EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name <> 'abc';
    

    很明显没有用上索引。image.png

没救 索引只能查到确定的东西

2.8 is null可以使用索引,is not null无法使用索引

这个失效的原因跟不等于的情况很相似,is not null是不确定的,需要遍历全表才能确定结果。

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NULL;
# is not null 索引失效
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NOT NULL;

结论:最好在设计数据表的时候就将**字段设置为 NOT NULL 约束**,比如你可以将INT类型的字段,默认值设置为0。将字符类型的默认值设置为空字符串。


拓展: 同理,在查询中使用**not like** 也无法使用索引,导致全表扫描。

2.9 like以通配符%开头索引失效

在使用LIKE关键字进行查询的查询语句中,如果匹配字符串的第一个字符为“%”,索引就不会起作用。只有“%”不在第一个位置,索引才会起作用。
其实失效的原因本质上还是跟索引的结构有关,若果你的sql语句使得B+树的搜索特性失去作用,那么索引将毫无意义。这里使用模糊查询,模糊了前面部分,那么在比较的时候就无法确定,“二分”的思想就无法起作用,索引自然就失效了。
而模糊查询时模糊的是后面,前面的串是确定的,仍可使用“二分”的特性进行比较,索引还是能够用上,不至于失效。

拓展:Alibaba《Java开发手册》
【强制】页面搜索严禁左模糊或者全模糊,如果需要请走搜索引擎来解决。

2.10 OR 前后存在非索引的列,索引失效

在WHERE子句中,如果在OR前的条件列进行了索引,而在OR后的条件列没有进行索引,那么索引会失效。也就是说,OR前后的两个条件中的列都是索引时,查询中才使用索引

因为OR的含义就是两个只要满足一个即可,因此只有一个条伴列进行了索引是没有意义的,只要有条件列没有进行索引,就会进行全表扫描,因此索引的条件列也会失效。

2.11 数据库和表的字符集统一使用utf8mb4

统一使用utf8mb4( 5.5.3版本以上支持)兼容性更好,统一字符集可以避免由于字符集转换产生的乱码。不
同的 字符集 进行比较前需要进行 转换 会造成索引失效。

2.12练习及一般性建议

练习:假设:index(a,b,c)
image.png

一般性建议:

  • 对于单列索引, 尽量选择针对当前query(查询语句)过滤性更好的索引
  • 在选择组合索引的时候,当前query中过滤性最好的字段在索引字段顺序中,位置越靠前越好。。在选择组合
  • 索引的时候,尽量选择能够包含当前query中的where子句中更多字段的索引。
  • 在选择组合索引的时候,如果某个字段可能出现范围查询时,尽量把这个字段放在索引次序的最后面。

总之,书写SQL语句时,尽量避免造成索引失效的情况。

3. 关联查询优化

3.1 数据准备

#分类
CREATE TABLE IF NOT EXISTS `type`(
`id` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
`card` INT(10) UNSIGNED NOT NULL,
PRIMARY KEY ( `id` )
);

#图书
CREATE TABLE IF NOT EXISTS `book`(
    `bookid` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
    `card`INT(10) UNSIGNED NOT NULL,
    PRIMARY KEY (`bookid`)
);

#向分类表中添加20条记录
INSERT INTO type (card) VALUES (FLOOR(1 +(RAND() * 20)));



#向图书表中添加20条记录
INSERT INTO book(card) VALUES (FLOOR(1 +(RAND() * 20)) );

3.2 采用左外连接

关于多表查询,外连接分为左外连接、右外连接、满外连接(union);由于左右外连接都差不多这里就以左连接为例进行分析;
下面开始 EXPLAIN 分析

EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

image.png

结论:type 有All全表查询,关于左连接的全表查询,其简要过程大致如下,假如type表有20条数据,book有30条数据;在进行全表查询的时候首先 type表中取出一条数据,然后在book表中遍历一遍查询是否有符合条件的;之后再次从type表中取出下一条数据进行匹配;如此反复一共进行了20*30次。
对于内层表(被驱动表)book来说,因为每次都会遍历它,所以会使用上join buffer进行缓存提升查询速度
image.png

上面是没有添加索引的情况下的查询,现在我们添加索引进行优化

# 左外连接右边的被驱动表book添加索引
ALTER TABLE book ADD INDEX Y(card); #【被驱动表】,可以避免全表扫描
#再次查询
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

image.png

可以看到第二行的book表的type 变为了 ref,rows 也变成了优化比较明显。这是由左连接特性决定的。LEFT JOIN条件用于确定如何从右表搜索行,左外连接时左边的条件一定都有,所以 右边是我们的关键点,一定需要建立索引 。

如果只能添加一边的索引,那就给**被驱动表**添加上索引。

 #加了索引【驱动表】依然无法避免全表扫描,因为左外连接,左边的驱动表所有记录都是满足条件的
ALTER TABLE `type` ADD INDEX X (card);

EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

接着:

#去掉被驱动表的索引
DROP INDEX Y ON book;
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

image.png

去掉被驱动索引,又变成了 join buffer

3.3 采用内连接

前置知识

#删除之前的表防止影响后续操作(如果已经删除了可以不用再执行该操作)
drop index X on type;
drop index Y on book;

换成 inner join(MySQL自动选择驱动表)

EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.card=book.card;

image.png
跟左外连接最初没有使用索引的效果是一样的。

#给被驱动表添加索引优化
ALTER TABLE book ADD INDEX Y (card);

EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.card=book.card;

image.png

# 驱动表type 加索引
ALTER TABLE type ADD INDEX X (card);
# 观察执行情况
EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.card=book.card;

image.png
因为inner跟letf join不一样,左连接是左边的表全部都要,而内连接是看两个表中哪些是相同的,只要两表相交的部分。

这里刚给type加了索引后,驱动表和被驱动表还是原来的样子。 给type 继续加了一些数据后优化器会判断,哪个表的数据比较少就自动将其作为驱动表。(小表驱动大表)

结论:

  • **内连接** 主被驱动表是由优化器决定的。优化器认为哪个成本比较小,就采用哪种作为驱动表。
  • 如果两张表只有一个有索引,那有索引的表作为被驱动表
    • 原因:驱动表要全查出来。有没有索引你都得全查出来。
  • 两个索引都存在的情况下, 数据量大的 作为**被驱动表**(小表驱动大表)
    • 原因:驱动表要全部查出来,而大表可以通过索引加快查找

3.4 join语句原理

join方式连接多个表,本质就是各个表之间数据的循环匹配。MySQL5.5版本之前,MySQL只文持一种表间关联方式,就是嵌套循环(Nested Loop Join)算法。如果关联表的数据量很大,则join关联的执行时间会非常长。在MySQL5.5以后的版本中,MySQL通过引入BNLJ算法来优化嵌套执行。

1.驱动表和被驱动表

驱动表就是主表,被驱动表就是从表、非驱动表。

  • 对于内连接来说:

    SELECT * FROM A JOIN B ON ...
    

    A一定是驱动表吗?不一定,优化器会根据你查询语句做优化,决定先查哪张表。先查询的那张表就是驱动表,反之就是被驱动表。通过explain关键字可以查看。

    • 对于外连接来说:
      SELECT * FROM A LEFT JOIN B ON ...
      #或
      SELECT *FROM B RIGHT JOIN A ON ...
      

      通常,大家会认为A就是驱动表,B就是被驱动表。但也未必。测试如下: ```sql CREATE TABLE a(f1 INT,f2 INT,INDEX(f1))ENGINE=INNODB;

CREATE TABLE b(f1 INT,f2 INT)ENGINE=INNODB;

INSERT INTO a VALUES(1,1),(2,2),(3,3),(4,4),(5,5),(6,6);

INSERT INTO b VALUES (3,3),(4,4),(5,5),(6,6),(7,7),(8,8);

测试1

EXPLAIN SELECT* FROM a LEFT JOIN b ON (a.f1=b.f1)WHERE (a.f2=b.f2);

测试2

EXPLAIN SELECT * FROM a LEFT JOIN b oN (a.f1=b.f1) AND (a.f2=b.f2);

<br />**测试1结果:**![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653535910614-d2c8d60e-f27a-4152-ac78-e1741684bca7.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=177&id=u9e898ab3&name=image.png&originHeight=221&originWidth=996&originalType=binary&ratio=1&rotation=0&showTitle=false&size=73932&status=done&style=none&taskId=u64343b6a-0a4f-4fa7-af69-3bde1f46e5e&title=&width=796.8)<br />得出这种结论太不可思议了,跟上一个show warnings 看看:![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653535915028-6becc6b8-3c4c-4875-836c-0a471c6dca57.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=216&id=u95a90cad&name=image.png&originHeight=270&originWidth=986&originalType=binary&ratio=1&rotation=0&showTitle=false&size=86061&status=done&style=none&taskId=u86bd33e7-fd13-4f58-a407-43779e20b9b&title=&width=788.8)<br />**测试2结果:**![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653535922352-30e2ce31-a274-4fb0-8b1c-1530be90b5d3.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=178&id=ub65bdfe6&name=image.png&originHeight=223&originWidth=1012&originalType=binary&ratio=1&rotation=0&showTitle=false&size=64278&status=done&style=none&taskId=u2f4ddc46-551f-47dc-ac82-30c15a4b6bc&title=&width=809.6)<br />继续show warnings \G![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653535930156-9fdf2a74-5f7d-411d-ac3f-f5d81df0af63.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=196&id=u2e80a6f8&name=image.png&originHeight=245&originWidth=982&originalType=binary&ratio=1&rotation=0&showTitle=false&size=70477&status=done&style=none&taskId=ue41952e8-d6c7-4f14-b860-19a7f54be59&title=&width=785.6)

<a name="8312de62"></a>
#### 2.Simple Nested-Loop Join(简单嵌套循环连接)
join操作本质上就是一个循环匹配。<br />算法相当简单,从表A中取出一条数据1,遍历表B,将匹配到的数据放到result..以此类推,驱动表A中的每一条记录与被驱动表B的记录进行判断:

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653536093713-ad598a24-c96e-417d-b4a5-9d520e9841ef.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=382&id=u8faebcaf&name=image.png&originHeight=478&originWidth=1243&originalType=binary&ratio=1&rotation=0&showTitle=false&size=73402&status=done&style=none&taskId=ufe562154-8d7f-49a3-8f14-abda7799716&title=&width=994.4)

这个例子是在没有索引的情况,做了全表扫描

可以看到这种方式效率是非常低的,以上述表A数据100条,表B数据1000条计算,则A*B=10万次。开销统计如下:

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653536105528-5717164c-ef9b-4e1e-b740-255233590ef0.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=254&id=u7b70a6a1&name=image.png&originHeight=318&originWidth=1124&originalType=binary&ratio=1&rotation=0&showTitle=false&size=70652&status=done&style=none&taskId=u7370e6c5-5bc8-41cb-b81a-4e8919119ac&title=&width=899.2)

当然mysql肯定不会这么粗暴的去进行表的连接,所以就出现了后面的两种对Nested-Loop Join优化算法。

<a name="3ddb5306"></a>
#### 3.Index Nested-Loop Join(索引嵌套循环连接)

Index Nested-Loop Join其优化的思路主要是为了`减少内层表数据的匹配次数`,所以要求被驱动表上必须`有索引`才行。通过外层表匹配条件直接与内层表索引进行匹配,避免和内层表的每条记录去进行比较,这样极大的减少了对内层表的匹配次数。

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653536113337-509f978b-3cee-4cc1-b320-67bc142b7b95.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=406&id=ucd689bba&name=image.png&originHeight=507&originWidth=1192&originalType=binary&ratio=1&rotation=0&showTitle=false&size=68227&status=done&style=none&taskId=u70641807-eb01-4578-9da7-6646ff9bfea&title=&width=953.6)

驱动表中的每条记录通过被驱动表的索引进行访问,因为索引查询的成本是比较固定的,故mysql优化器都倾向于使用记录数少的表作为驱动表(外表)。

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653536121142-d176cfbe-998f-409f-8893-5870ffdefec9.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=261&id=u39710693&name=image.png&originHeight=326&originWidth=1098&originalType=binary&ratio=1&rotation=0&showTitle=false&size=95983&status=done&style=none&taskId=ucafe5534-ca19-4640-a434-439b962b392&title=&width=878.4)

如果被驱动表加索引,效率是非常高的,但如果索引不是主键索引,所以还得进行一次回表查询。相比,被驱动表的索引是主键索引,效率会更高。

<a name="ed0f689f"></a>
#### 4.Block Nested-Loop Join(块嵌套循环连接)

如果存在索引,那么会使用index的方式进行join,如果join的列没有索引,被驱动表要扫描的次数太多了。每次访问被驱动表,其表中的记录都会被加载到内存中,然后再从驱动表中取一条与其匹配,匹配结束后清除内存,然后再从驱动表中加载一条记录,然后把被驱动表的记录在加载到内存匹配这样周而复始,大大增加了I0的次<br />数。为了减少被驱动表的Io次数,就出现了Block Nested-Loop Join的方式。

不再是逐条获取驱动表的数据,而是一块一块的获取,引入了`join buffer缓冲区`,将`驱动表join`相关的一部分数据列(大小受join buffer的限制)缓存到join buffer中,然后全表扫描被驱动表的每—条记录**—次性和join  buffer中的所有驱动表记录进行匹配**(`内存中操作`),将简单嵌套循环中的多次比较合并成一次,降低了被驱动<br />表的访问频率。
> **注意:**
> ** **
> **这里缓存的不只是关联表的列, select后面的列也会缓存起来。(存的是驱动表)**
> **在一个有N个join关联的sql中会分配N-1个join buffer。所以查询的时候尽量减少不必要的字段,可以让joinbuffer中可以存放更多的列。**


![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653536130149-0361b683-ac50-4b50-960c-15d9f33c3f1d.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=369&id=uef4a369d&name=image.png&originHeight=461&originWidth=1083&originalType=binary&ratio=1&rotation=0&showTitle=false&size=116029&status=done&style=none&taskId=ucab08f81-4def-41d1-887e-0c7f1e49e81&title=&width=866.4)

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653536137777-c07af2ef-b318-4209-9b28-116aaddc55ec.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=246&id=ud7e32438&name=image.png&originHeight=308&originWidth=1091&originalType=binary&ratio=1&rotation=0&showTitle=false&size=131193&status=done&style=none&taskId=u29015c3d-d90b-450b-8d86-e80edcb095e&title=&width=872.8)

参数设置:

-  block_nested_loop<br />通过`show variables like '%optimizer_switch%'`查看`block_nested_loop`状态。默认是开启的。. 

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653540246147-f48d7052-156c-420d-8c14-f3381355e590.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=156&id=u78999d43&name=image.png&originHeight=195&originWidth=988&originalType=binary&ratio=1&rotation=0&showTitle=false&size=124283&status=done&style=none&taskId=u4e22ba68-c4ec-44b0-af7d-db9796339a3&title=&width=790.4)

-  join_buffer_size<br />驱动表能不能一次加载完,要看join buffer能不能存储所有的数据,默认情况下`join_buffer_size=256k`。

mysql> show variables like ‘%join_buffer%’; +—————————+————+ | Variable_name | Value | +—————————+————+ | join_buffer_size | 262144 | +—————————+————+ 1 row in set (0.00 sec)

<br />join_buffer_size的最大值在32位系统可以申请4G,而在64位操做系统下可以申请大于4G的Join Buffer空间(64位Windows除外,其大值会被截断为4GB并发出警告)。 

<a name="11146fb4"></a>
#### 5.Join小结
1、**整体效率比较:INLJ > BNLJ > SNLJ**<br />2、永远用小结果集驱动大结果集(其本质就是减少外层循环的数据数量)(小的度量单位指的是表行数*每行大小)

straight_join 不然优化器优化谁是驱动表 驱动表 straight_join 被驱动表

这个例子是说t2 的列比较多,,相同的join buffer 加的会比较少。所以不适合用t2 作为 !!!驱动表

select t1.b,t2.* from t1 straight_join t2 on (t1.b=t2.b) where t2.id<=180;#推荐

select t1.b,t2.* from t2 straight_join t1 on (t1.b=t2.b) where t2.id<=100;#不推荐

3、为被驱动表匹配的条件增加索引(减少内层表的循环匹配次数)<br />4、增大join buffer size的大小(一次缓存的数据越多,那么内层包的扫表次数就越少)<br />5、减少`驱动表`不必要的字段查询(字段越少,join buffer 所缓存的数据就越多)<br />6、在决定哪个表做驱动表的时候,应该是两个表按照各自的条件过滤,过滤完成之后,计算参与join的各个字段的总数据量,数据量小的那个表,就是“小表”,应该作为驱动表。



<a name="b8b33633"></a>
### **3.5.Hash Join**

**从MySQL的8.0.20版本开始将废弃BNLJ,因为从MySQL8.0.18版本开始就加入了hash join默认都会使用hash join**

![](%E7%AC%AC10%E7%AB%A0_%E7%B4%A2%E5%BC%95%E4%BC%98%E5%8C%96%E4%B8%8E%E6%9F%A5%E8%AF%A2%E4%BC%98%E5%8C%96.assets/image-20220327151158056.png#crop=0&crop=0&crop=1&crop=1&id=m7d9J&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)

-  Nested Loop:<br />对于被连接的数据子集较小的情况,Nested Loop是个较好的选择。 
-  Hash Join是做`大数据集连接`时的常用方式,优化器使用两个表中较小(相对较小)的表利用Join Key在内存中建立`散列表`,然后扫描较大的表并探测散列表,找出与Hash表匹配的行。 
   -  这种方式适用于较小的表完全可以放于内存中的情况,这样总成本就是访问两个表的成本之和。 
   -  在表很大的情况下并不能完全放入内存,这时优化器会将它分割成`若干不同的分区`,不能放入内存的部分就把该分区写入磁盘的临时段,此时要求有较大的临时段从而尽量提高I/O的性能。 
   -  它能够很好的工作于没有索引的大表和并行查询的环境中,并提供最好的性能。大多数人都说它是Join的重型升降机。Hash Join只能应用于等值连接(如WHERE A.COL1=B.COL2),这是由Hash的特点决定的。 

![](%E7%AC%AC10%E7%AB%A0_%E7%B4%A2%E5%BC%95%E4%BC%98%E5%8C%96%E4%B8%8E%E6%9F%A5%E8%AF%A2%E4%BC%98%E5%8C%96.assets/image-20220327151646951.png#crop=0&crop=0&crop=1&crop=1&id=AQNmg&originalType=binary&ratio=1&rotation=0&showTitle=false&status=done&style=none&title=)<br />小结

- 保证被驱动表的JOIN字段已经创建了索引
- 需要JOIN 的字段,数据类型保持绝对一致。
- LEFT JOIN 时,选择小表作为驱动表, `大表作为被驱动表` 。减少外层循环的次数。
- INNER JOIN 时,MySQL会自动将 `小结果集的表选为驱动表` 。选择相信MySQL优化策略。
- 能够直接多表关联的尽量直接关联,不用子查询。(减少查询的趟数)
- 不建议使用子查询,建议将子查询SQL拆开结合程序多次查询,或使用 JOIN 来代替子查询。
- 衍生表建不了索引
<a name="9361ea0d"></a>
## 4.子查询优化

MySQL从4.1版本开始支持子查询,使用子查询可以进行SELECT语句的嵌套查询,即一个SELECT查询的结果作为另一个SELECT语句的条件。`**子查询可以一次性完成很多逻辑上需要多个步骤才能完成的SQL操作**`**。**

**子查询是MySQL的一项重要的功能,可以帮助我们通过一个SQL语句实现比较复杂的查询。但是,子查询的执行效率不高。**原因:<br />①执行子查询时MySQL需要为内层查询语句的查询结果`建立一个临时表`,然后外层查询语句从临时表中查询记录。查询完毕后,再`撤销这些临时表`。这样会消耗过多的CPU和IO资源,产生大量的慢查询。<br />②子查询的结果集存储的临时表,**不论是内存临时表还是磁盘临时表都**`**不会存在索引**`**,所以查询性能会受到一定的影响。**<br />③对于返回结果集比较大的子查询,其对查询性能的影响也就越大。

**在MySQL中,可以使用连接(JOIN)查询来替代子查询**。连接查询不需要`建立临时表`,其`速度比子查询要快`,如果查询中使用索引的话,性能就会更好。

举例1:查询学生表中是班长的学生信息

-  使用子查询

创建班级表中班长的索引

CREATE INDEX idx_monitor ON class ( monitor ) ; EXPLAIN SELECT *FROM student stu1 WHERE stu1 . ‘stuno`IN( SELECT monitor FROM class c WHERE monitor IS NOT NULL);



-  推荐:使用多表查询

EXPLAIN SELECT stu1.* FROM student stu1 JOIN class c ON stu1 . ‘stuno= c. 'monitor' WHERE c. 'monitor IS NOT NULL;


举例2:取所有不为班长的同学·不推荐

-  子查询

EXPLAIN SELECT SQL_NO_CACHE a.* FROM student a WHERE a.stuno NOT IN ( SELECT monitor FROM class bWHERE monitor IS NOT NULL);



-  修改成多表查询

EXPLAIN SELECT SQL_NO_CACHE a.* FROM student a LEFT OUTER JOIN class b ON a. stuno =b.monitor WHERE b.monitor IS NULL;



> **结论: 尽量不要使用NOT IN或者NOT EXISTS,用LEFT JOIN Xxx ON xx WHERE xx IS NULL替代**


<a name="acbb693f"></a>
## 5.排序优化

<a name="22320aed"></a>
### 5.1排序优化

**问题:** 在WHERE 条件字段上加索引可以理解,但是为什么在ORDER BY字段上还要加索引呢?<br />**回答:**<br />在MySQL中,支持两种排序方式,分别是`FileSort`和`Index`排序。

- Index排序中,索引可以保证数据的有序性,不需要再进行排序,`效率更高`。
- FileSort排序则一般需要将数据加载到`内存中`进行排序,占用`CPU较多`。如果待排结果较大,会产生临时文件I/O到磁盘进行排序的情况,效率较低。

**优化建议:**

1. SQL中,可以在WHERE子句和ORDER BY子句中使用索引,目的是在WHERE子句中`避免全表扫描`,在ORDER BY子句`避免使用FileSort排序`。当然,某些情况下全表扫描,或者FileSort排序不一定比索引慢。但总的来说,我们还是要避免,以提高查询效率。
1. 尽量使用Index索引完成ORDER BY排序。如果WHERE和ORDER BY后面是相同的列就使用单索引列;如果不同就使用联合索引。
1. **无法使用Index时,需要对FileSort方式进行调优。**

<a name="6559728c"></a>
### 5.2测试
删除student表和class表中已创建的索引。

方式1:

DROP INDEX idx_monitor ON class;

DROP INDEX idx_cid ON student; DROP INDEX idx_age ON student;DROP INDEX idx_name ON student ; DROP INDEX idx_age_name_classid ON student ;DROP INDEX idx_age_classid_name ON student ;

方式2:

call proc_drop_index( ‘ atguigudb2’ , ‘student’ ); call proc_drop_index( ‘ atguigudb2’ , ‘class’ );

以下是否能使用到索引,能否去掉`using filesort`

**过程一:**

EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid;

EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid limit 10;


**过程二: order by时不limit,索引失效**

创建索引

CREATE INDEX idx_age_classid_name ON student (age,classid, NAME);

不限制,索引失效

EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age ,classid ;

![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653541351923-04de3516-3ed6-4630-8f95-1536e146b760.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=58&id=u3777b661&name=image.png&originHeight=73&originWidth=1318&originalType=binary&ratio=1&rotation=0&showTitle=false&size=82973&status=done&style=none&taskId=u178922c2-ef39-46db-ab3a-0c24bab2f10&title=&width=1054.4)

> 这里优化器觉得,还需要回表。会费时间更大,不走索引。


使用覆盖索引试试看<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653541452594-4e0308b2-f74d-423f-a156-2a0037a519ef.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=47&id=ubb0bc0c0&name=image.png&originHeight=59&originWidth=996&originalType=binary&ratio=1&rotation=0&showTitle=false&size=43932&status=done&style=none&taskId=u491815e1-46f1-43f3-8407-2bc43e2a21e&title=&width=796.8)<br /> ![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653541460254-27ec1566-a6a4-44ec-adf8-c5bd529f3a29.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=53&id=ub43d3b2c&name=image.png&originHeight=66&originWidth=1390&originalType=binary&ratio=1&rotation=0&showTitle=false&size=94201&status=done&style=none&taskId=u61ccd33f-d2ff-4de6-a782-3d9ae15a66b&title=&width=1112)

> 不用回表,优化器觉得走索引快。就使用了索引。


增加limit 过滤条件<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653541523945-432d8997-bdc0-4f81-af2d-21e78ab8f16b.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=116&id=u56ebad2f&name=image.png&originHeight=145&originWidth=1099&originalType=binary&ratio=1&rotation=0&showTitle=false&size=58511&status=done&style=none&taskId=u317b32d7-d901-4f90-a0b5-8c7db0a0249&title=&width=879.2)

> 增加limit 减少回表的数量,优化器觉得走索引快,会使用索引


**过程三: order by时顺序错误,索引失效**

CREATE INDEX idx_age_classid_stuno ON student (age,classid,stuno) ;

以下哪些索引失效?

不会走,根据最左前缀原则,跳过了age,索引失效

EXPLAIN SELECT FROM student ORDER BY classid LIMIT 10; EXPLAIN SELECT FROM student ORDER BY classid,NAME LIMIT 10;

走,没有跳过age

EXPLAIN SELECT* FROM student ORDER BY age,classid, stuno LIMIT 10;

EXPLAIN SELECT *FROM student ORDER BY age,classid LIMIT 10;

EXPLAIN SELECT * FROM student ORDER BY age LIMIT 10;


**过程四: order by时规则不一致,索引失效(顺序错,不索引; 方向反,不索引)**

age desc 降序排序 方向反了导致 索引失效

EXPLAIN SELECT * FROM student ORDER BY age DESC, classid ASC LIMIT 10;

没有最左前缀 索引失效

EXPLAIN SELECT * FROM student ORDER BY classid DESC, NAME DESC LIMIT 10;

age asc 没问题 classid desc 降序, 优化器认为,文件排序比较快索引失效

方向反了不走索引

EXPLAIN SELECT * FROM student ORDER BY age ASC, classid DESC LIMIT 10;

Backward index scan 走索引了,,倒着走索引

EXPLAIN SELECT * FROM student ORDER BY age DESC, classid DESC LIMIT 10;


**过程五:无过滤,不索引**

EXPLAIN SELECT * FROM student WHERE age=45 ORDER BY classid;

EXPLAIN SELECT * FROM student WHERE age=45 ORDER BY classid , name;

` `<br />![image.png](https://cdn.nlark.com/yuque/0/2022/png/28814483/1653544280411-ebd01887-d1e1-4a17-85e7-eccf5775f2f0.png#clientId=u27f8b11f-ba64-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=48&id=ub0ef3097&name=image.png&originHeight=60&originWidth=1297&originalType=binary&ratio=1&rotation=0&showTitle=false&size=78298&status=done&style=none&taskId=ud41eca81-83bb-4d82-a915-0169d37fbfb&title=&width=1037.6)<br />能用上索引,但索引长度为什么是5,这是因为使用age索引过滤大部分数据之后,后面的数据可能就不用索引进行查询了。

```sql
EXPLAIN SELECT *FROM student WHERE classid=45 order by age;

image.png

EXPLAIN SELECT * FROM student WHERE classid=45 order by age limit 10;

image.png
这里索引长度是73,是因为先去查询分组的age索引,然后去查询classId索引。

小结:

INDEX a_b_c( a, b,c)

order by 能使用索引最左前缀
- ORDER BY a
- ORDER BY a, b
- ORDER BY a , b, c
- ORDER BY a DESC, b DESC,c DESC


# 如果WHERE使用索引的最左前缀定义为常量,则order by 能使用索引
- WHERE a = const ORDER BY b, c
- WHERE a = const AND b = const ORDER BY c
- WHERE a = const ORDER BY b, c
- WHERE a = const AND b > const ORDER BY b , c

# 不能使用索引进行排序
- ORDER BY a ASC, b DESC, c DESC/*排序不一致*/
- WHERE g = const ORDER BY b,c/*丢失a索引*/
- WHERE a = const ORDER BY c/*丢失b索引*/
- WHERE a = const ORDER BY a, d /*d不是索引的一部分*/
- WHERE a in (...) ORDER BY b,c /*对于排序来说,多个相等条件也是范围查询*/

索引只会用到一个,没办法一个索引用来where 一个索引用来 order by。

但是可以建立联合索引。

5.3案例实战

ORDER BY子句,尽量使用Index方式排序,避免使用FileSort方式排序。
执行案例前先清除student上的索引,只留主键:

DROP INDEX idx_age ON student;
DROP INDEX idx_age_classid_stuno ON student;DROP INDEX idx_age_classid_name ON student;
#或者
call proc_drop_index( 'my_sql' , ' student' ) ;

show index from student;

场景:查询年龄为30岁的,且学生编号小于101000的学生,按用户名称排序

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 30 AND stuno <101000 ORDER BY NAME;

image.png

mysql>  SELECT SQL_NO_CACHE * FROM student WHERE age = 30 AND stuno <101000 ORDER BY NAME;
+-----+--------+--------+------+---------+
| id  | stuno  | name   | age  | classId |
+-----+--------+--------+------+---------+
| 417 | 100417 | bBAYtX |   30 |     159 |

....

| 372 | 100372 | xwODCc |   30 |     764 |
+-----+--------+--------+------+---------+
18 rows in set, 1 warning (0.17 sec)

结论: type是ALL,即最坏的情况。Extra里还出现了Using filqsort,也是最坏的情况。优化是必须的。

优化思路:

方案一:为了去掉filesort我们可以把索引建成如下示例

#创建新索引
CREATE INDEX idx_age_name ON student(age , NAME);

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 30 AND stuno <101000 ORDER BY NAME;

image.png

方案二:尽量让where的过滤条件和排序使用上索引

create index idx_age_stuno_name on student(age,stuno,name); #注意索引顺序

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 30 AND stuno <101000 ORDER BY NAME;

image.png
这个方案虽然使用了Using filesort 但是速度反而更快了。
原因:
所有的排序都是在条件过滤之后才执行的。所以,如果条件过滤掉大部分数据的话,剩下几百几千条数据进行排序其实并不是很消耗性能,即使索引优化了排序,但实际提升性能很有限。相对的stuno<101000这个条件,如果没有用到索引的话,要对几万条的数据进行扫描,这是非常消耗性能的,所以索引放在这个字段上性价比最高,是最优选择。

结论:
1.两个索引同时存在,mysql自动选择最优的方案。(对于这个例子mysql选择idx_age_stuno_name)。但是,随着数据量的变化,选择的索引也会随之变化的。

2.当【范围条件】和【group by或者order by】的字段出现二选一时,优先观察条件字段的过滤数量,如
果过滤的数据足够多,而需要排序的数据并不多时,优先把索引放在范围字段上。反之,亦然。

思考:这里我们使用如下索引,是否可行?

DROP INDEX idx_age_stuno_name ON student;

# 当然可以了,因为就算是3个也只是用到了两个索引
CREATE INDEX idx_age_stuno ON student(age , stuno ) ;

5.4 filesort算法:双路排序和单路排序

排序的字段若如果不在索引列上,则filesort会有两种算法: 双路排序单路排序

双路排序(慢)

  • MySQL 4.1之前是使用双路排序,字面意思就是两次扫描磁盘,最终得到数据,读取行指针和order by列,对他们进行排序,然后扫描已经排序好的列表,按照列表中的值重新从列表中读取对应的数据输出
  • 从磁盘取排序字段,在buffer进行排序,再从磁盘取其他字段。

取一批数据,要对磁盘进行两次扫描,众所周知,lo是很耗时的,所以在mysql4.1之后,出现了第二种改进的算法,就是单路排序。

单路排序(快)
从磁盘读取查询需要的所有列,按照order by列在buffer对它们进行排序,然后扫描排序后的列表进行输出,它的效率更快一些,避免了第二次读取数据。并且把随机lO变成了顺序Io,但是它会使用更多的空间,因为它把每一行都保存在内存中了。
结论及引申出的问题

  • 由于单路是后出的,总体而言好过双路
  • 但是用单路有问题
    • 在sort_buffer中,单路比多路要多占用更多空间,因为单路是把所有字段都取出,所以有可能取出的数据的总大小超出了sort_buffer的容量,导致每次只能取sort_buffer容量大小的数据,进行排序〈创建tmp文件,多路合并),排完再取sort_buffer容量大小,再排……从而多次I/O。
    • 单路本来想省一次I/o操作,反而导致了大量的I/0操作,反而得不偿失。

优化策略

1.尝试提高sort_buffer_size

  • 不管用哪种算法,提高这个参数都会提高效率,要根据系统的能力去提高,因为这个参数是针对每个进程
    (connection)的1M-8M之间调整。MySQL5.7,InnoDB存储引擎默认值是1048576字节,1MB。
    mysql> SHOW VARIABLES LIKE '%sort_buffer_size%';
    +-------------------------+---------+
    | Variable_name           | Value   |
    +-------------------------+---------+
    | innodb_sort_buffer_size | 1048576 |
    | myisam_sort_buffer_size | 8388608 |
    | sort_buffer_size        | 262144  |
    +-------------------------+---------+
    3 rows in set (0.00 sec)
    

2尝试提高max_length_for_sort_data

  • 提高这个参数,会增加用改进算法的概率。
    mysql> SHow VARIABLES LIKE '%max_length_for_sort_data%';
    +--------------------------+-------+
    | Variable_name            | Value |
    +--------------------------+-------+
    | max_length_for_sort_data | 4096  |
    +--------------------------+-------+
    1 row in set (0.00 sec)
    
  • 但是如果设的太高,数据总容量超出sort_buffer_size的概率就增大,明显症状是高的磁盘I/o活动和低的处理器使用率。如果需要返回的列的总长度大于max_length_for_sort_data使用双路算法,否则使用单路算法。1024-8192字节之间调整

**3.Order by时select是一个大忌。最好只Query需要的字段。原因:

  • 当Query的字段大小总和小于max_length_for_sort_data,而且排序字段不是TEXT|BLOB类型时,会用改进后的算法――单路排序,否则用老算法――多路排序。
  • 两种算法的数据都有可能超出sort_buffer_size的容量,超出之后,会创建tmp文件进行合并排序,导致多次I/o,但是用单路排序算法的风险会更大一些,所以要提高sort_buffer_size

6.GROUP BY优化

  • group by使用索引的原则几乎跟order by一致,group by即使没有过滤条件用到索引,也可以直接使用索引。.
  • group by是先排序再分组,遵照索引键的最佳左前缀法则
  • where效率高于having,能写在where限定的条件就不要写在having中了
  • 减少使用order by,和业务沟通能不排序就不排序,或将排序放到程序端去做
  • Order by、group by、distinct这些语句较为耗费CPU,数据库的CPU资源是极其宝贵的。包含了order by、group by、distinct这些查询的语句,where条件过滤出来的结果集请保持在1000行以内,否则SQL会很慢。
  • 当无法使用索引列,可以像order by一样增大max_length_for_sort_datasort_buffer_size参数的设置

    7.优化分页查询

一般分页查询时,通过创建覆盖索引能够比较好地提高性能。
在数据量比较大时,如果进行limit分页查询,在查询时,越往后,分页查询效率越低。 这就是分页查询的问题所在。
一个常见又非常头疼的问题就是limit 2000000,10(2000000表示查询起始位置,10表示一页中返回的记录数),此时需要MySQL排序前2000010记录,仅仅返回2000000 - 2000010的记录,其他记录丢弃,查询排序的代价非常大。

EXPLAIN SELECT * FROM student LIMIT 2088800,10;

优化思路一
优化思路: 一般分页查询时,通过创建 覆盖索引 能够比较好地提高性能,可以通过覆盖索引加子查 询形式进行优化。
即在索引上完成排序分页操作,最后根据主键关联回原表查询所需要的其他列内容。

EXPLAIN SELECT * FROM student t, ( SELECT id FROM student ORDER BY id LIMIT 2000000,10) a WHERE t.id = a.id;

8. 优先考虑覆盖索引

8.1 什么是覆盖索引?

覆盖索引是指某个查询语句使用了索引,并且需要返回的列,在该索引中已经全部能够找到 。
理解方式一:索引是高效找到行的一个方法,但是一般数据库也能使用索引找到一个列的数据,因此它
不必读取整个行。毕竟索引叶子节点存储了它们索引的数据;当能通过读取索引就可以得到想要的数
据,那就不需要读取行了。一个索引包含了满足查询结果的数据就叫做覆盖索引。

理解方式二:非聚簇复合索引的一种形式,它包括在查询里的SELECT、JOIN和WHERE子句用到的所有列
(即建索引的字段正好是覆盖查询条件中所涉及的字段)。

简单说就是, 索引列+主键 包含 SELECT 到 FROM之间查询的列

举例一:覆盖索引长什么样子。 索引列+主键

#删除之前的索引
DROP INDEX idx_age_stuno ON student ;
#重新创建联合索引
CREATE INDEX idx_age_name ON student (age , NAME);
#使用了不等于,这里索引应该会失效吧?
EXPLAIN SELECT * FROM student WHERE age <>20;

image.png


#id是主键索引,其他两个是联合索引;  这里就用到了索引覆盖
EXPLAIN SELECT id, age , NAME FROM student WHERE age <> 28;

image.png
上述使用到了声明的索引,下面的情况则不然,在查询列中多了一列classid,显示未使用到索引:

EXPLAIN SELECT id, age , NAME,classid FROM student WHERE age <> 28;

image.png

举例二:

CREATE INDEX idx_age_name ON student (age , NAME); #刚才创建了

EXPLAIN SELECT * FROM student WHERE NAME LIKE '%abc';

image.png
可以看到该语句跳过了最左前缀,而且又使用了前模糊,索引失效是必然的。但是看下面使用了覆盖索引的语句


EXPLAIN SELECT id, age ,NAME FROM student WHERE NAME LIKE '%abc ';

image.png
可以看到,此时走的依旧是索引查询。

情况三:索引覆盖失效


EXPLAIN SELECT id, age ,NAME,classid FROM student WHERE NAME LIKE '%abc ';

查询多了classid,结果是未使用到索引
image.png

之前有说过,不等于与左模糊会导致索引失效。但是这里为什么又用上了呢?原因是优化器发现,数据已经都在索引了。直接遍历索引就可以返回数据。而遍历索引,肯定是比遍历全表数据量少的。这样IO就可以更少。

一切都是成本的考量。

8.2 覆盖索引的利弊

好处:
1. 避免Innodb表进行索引的二次查询(回表)
Innodb是以聚集索引的顺序来存储的,对于Innodb来说,二级索引在叶子节点中所保存的是行的主键信息,如果是用二级索引查询数据,在查找到相应的键值后,还需通过主键进行二次查询才能获取我们真实所需要的数据。
在覆盖索引中,二级索引的键值中可以获取所要的数据,避免了对主键的二次查询,减少了IO操作,提升了查询效率。

2. 可以把随机IO变成顺序IO加快查询效率
由于覆盖索引是按键值的顺序存储的,对于I0密集型的范围查找来说,对比随机从磁盘读取每一行的数据IO要少的多,因此利用覆盖索引在访问时也可以把磁盘的随机读取的IO转变成索引查找的顺序IO

3.数据在索引里面数据量少更紧凑
索引肯定是比原来的数据,数据量少。。这样就可以减少IO.
由于覆盖索引可以减少树的搜索次数,显著提升查询性能,所以使用覆盖索引是一个常用的性能优化手段。

弊端:
索引字段的维护 总是有代价的。因此,在建立冗余索引来支持覆盖索引时就需要权衡考虑了。这是业务
DBA,或者称为业务数据架构师的工作。

9. 如何给字符串添加索引

有一张教师表,表定义如下:

create table teacher(
ID bigint unsigned primary key,
email varchar(64),
...
)engine=innodb;

讲师要使用邮箱登录,所以业务代码中一定会出现类似于这样的语句:

mysql> select col1, col2 from teacher where email='xxx';

如果email这个字符串字段上没有索引,那么这个语句就只能做 全表扫描

9.1 前缀索引

MySQL是支持前缀索引的。默认地,如果你创建索引的语句不指定前缀长度,那么索引就会包含整个字
符串

mysql> alter table teacher add index index1(email);
#或指定前缀长度
mysql> alter table teacher add index index2(email(6))

这两种不同的定义在数据结构和存储上有什么区别呢?下图就是这两个索引的示意图

image.png

以及

image.png

如果使用的是index1(即email整个字符串的索引结构),执行顺序是这样的:

  1. 从index1索引树找到满足索引值是’ zhangssxyz@xxx.com ’的这条记录,取得ID2的值
  2. 主键上查到主键值是ID2的行,判断email的值是正确的,将这行记录加入结果集;
  3. 取index1索引树上刚刚查到的位置的下一条记录,发现已经不满足email=’ zhangssxyz@xxx.com ’的
    条件了,循环结束。

这个过程中,只需要回主键索引取一次数据,所以系统认为只扫描了一行。

如果使用的是index2(即email(6)索引结构),执行顺序是这样的:

  1. 从index2索引树找到满足索引值是’zhangs’的记录,找到的第一个是ID1;
  2. 到主键上查到主键值是ID1的行,判断出email的值不是zhangssxyz@xxx.com ’,这行记录丢弃;
  3. 取index2上刚刚查到的位置的下一条记录,发现仍然是’zhangs’,取出ID2,再到ID索引上取整行然
    后判断,这次值对了,
    将这行记录加入结果集;
  4. 重复上一步,直到在idxe2上取到的值不是’zhangs’时,循环结束。

也就是说使用前缀索引,定义好长度,就可以做到既节省空间,又不用额外增加太多的查询成本。前面
已经讲过区分度,区分度越高越好。因为区分度越高,意味着重复的键值越少。

9.2 前缀索引对覆盖索引的影响

结论: 使用前缀索引就用不上覆盖索引对查询性能的优化了,这也是你在选择是否使用前缀索引时需要考虑的一个因素。

10. 索引(条件)下推

explin语句的extend列有这个表示索引下推。
image.png

10.1 使用前后对比

Index Condition Pushdown(ICP)索引下推是MySQL 5.6中新特性,是一种在存储引擎层使用索引过滤数据的一种优化方式。

  • 如果没有ICP,存储引擎会遍历索引以定位基表中的行,并将它们返回给MySQL服务器,由MySQL服务器评估WHERE后面的条件是否保留行。
  • 启用ICP后,如果部分WHERE条件可以仅使用索引中的列进行筛选,则MySQL服务器会把这部分WHERE条件放到存储引擎筛选。然后,存储引擎通过使用索引条目来筛选数据,并且只有在满足这一条件时才从表中读取行。
    • 好处: ICP可以减少存储引擎必须访问基表的次数和MySQL服务器必须访问存储引擎的次数。
    • 但是,ICP的加速效果取决于在存储引擎内通过ICP筛选掉的数据的比例。

例子:

key1 字段有索引

image.png
一般我们会认为,只有key1有索引,后面的左模糊用不上索引;当我们去通过key1索引去查询数据的时候,假设满足key1>z的数据有100条,由于这个key1不是主键,是一个二级索引,所以需要回表操作到聚簇索引上,判断聚簇索引中的数据是否满足key1左模糊的条件,假如在100条的基础上只有10记录是满足左模糊条件的,那最终会保留10条数据。
但真实的情况是,找到的100条数据并不都需要进行回表查询操作,而是在100条数据的查询之后就开始后移查询条件的判别了,也就是说匹配到100条数据符合key1>z的条件之后先不着急回表,而是将索引下推到本sql中的左模糊查询(注意这里的两个条件都是同一列key1),在左模糊查询的条件也满足之后,也就是说找到了最后符合两个条件的情况下,才会进行回表操作。即最终只需要回表查询10次,比上面的100次更好。
其实本例还不够典型,因为两个条件都是key1列。

10.2 ICP的开启/关闭

  • 默认情况下启用索引条件下推。可以通过设置系统变量optimizer_switch控制:index_condition_pushdown
    #打开索引下推
    SET optimizer_switch = 'index_condition_pushdown=off ' ;
    #关闭索引下推
    SET optimizer_switch = 'index_condition_pushdown=on ' ;
    
  • 当使用索引条件下推时,EXPLAIN语句输出结果中Extra列内容显示为Using index condition

    10.3ICP使用案例

建表

CREATE TABLE `people` (
    `id` INT NOT NULL AUTO_INCREMENT,
    `zipcode` VARCHAR ( 20 ) COLLATE utf8_bin DEFAULT NULL,
    `firstname` varchar(20)COLLATE utf8_bin DEFAULT NULL,
    `lastname` varchar(20) COLLATE utf8_bin DEFAULT NULL,
    `address` varchar (50)COLLATE utf8_bin DEFAULT NULL,
    PRIMARY KEY ( `id`),
KEY `zip_last_first`( `zipcode` , `lastname`, `firstname`)
)ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8mb3 COLLATE=utf8_bin;

插入数据

INSERT INTO `people` VALUES
( '1', '000001','三','张','北京市'),
 ( '2', '000002 ','四','李','南京市'),
 ( '3', '000003', '五','王','上海市'),
 ( '4 ', '000001','六','赵','天津市');

为该表定义联合索引zip_last_first (zipcode,lastname,firstname)。如果我们知道了一个人的邮编,但是不确定这个人的姓氏,我们可以进行如下检索:

EXPLAIN SELECT *FROM people
WHERE zipcode= '000001'
AND lastname LIKE '%张%'
AND address LIKE '%北京市%';

image.png
执行查看SQL的查询计划,Extra中显示了**Using index condition**,这表示使用了索引下推。另外,Usingwhere表示条件中包含需要过滤的非索引列的数据,即address LIKE ‘%北京市%’这个条件并不是索引列,需要在服务端过滤掉。

10.4开启和关闭ICP的性能对比

创建存储过程,主要目的就是插入很多000001的数据,这样查询的时候为了在存储引擎层做过滤,减少IO,也为了减少缓冲池(缓存数据页,没有IO)的作用。

DELIMITER //
CREATE PROCEDURE insert_people( max_num INT )
BEGIN
DECLARE i INT DEFAULT 0;
    SET autocommit = 0;
    REPEAT
    SET i = i + 1;
    INSERT INTo people ( zipcode, firstname , lastname , address ) VALUES ( '000001','六', '赵','天津市');

    UNTIL i = max_num
    END REPEAT;
    COMMIT;
END //
DELIMITER ;

调用存储过程

call insert_people(1000000);

首先打开profiling

#查看
mysql> show variables like 'profiling%';
+------------------------+-------+
| Variable_name          | Value |
+------------------------+-------+
| profiling              | OFF   |
| profiling_history_size | 15    |
+------------------------+-------+
set profiling=1 ;

执行SQL语句,此时默认打开索引下推。

SELECT * FROM people WHERE zipcode= '000001' AND lastname LIKE '%张%';

再次执行sQL语句,不使用索引下推

SELECT /*+ no_icp (people) */ * FROM people WHERE zipcode='000001' AND lastname LIKE '%张%';

查看当前会话所产生的所有profiles

show profiles\G ;

结果如下。

image.png

image.png

多次测试效率对比来看,使用ICP优化的查询效率会好一些。这里建议多存储一些数据效果更明显。

10.5 ICP的使用条件

  1. 如果表访问的类型为range、ref、eq_ref和ref_or_null可以使用ICP
  2. ICP可以用于InnoDBMyISAM表,包括分区表InnoDBMyISAM
  3. 对于**InnoDB**表,**ICP**仅用于二级索引。ICP的目标是减少全行读取次数,从而减少I/o操作
  4. 当SQL使用覆盖索引时,不支持ICP。因为这种情况下使用ICP不会减少I/O。
    索引覆盖不能使用,一个原因是,索引覆盖,不需要回表。。ICP作用是减小回表,ICP需要回表
  5. 相关子查询的条件不能使用ICP

11. 普通索引 vs 唯一索引

从性能的角度考虑,你选择唯一索引还是普通索引呢?选择的依据是什么呢?

假设,我们有一个主键列为ID的表,表中有字段k,并且在k上有索引,假设字段 k 上的值都不重复。

这个表的建表语句是

mysql> create table test(
id int primary key,
k int not null,
name varchar(16),
index (k)
)engine=InnoDB;

表中R1~R5的(ID,k)值分别为(100,1)、(200,2)、(300,3)、(500,5)和(600,6)

11.1 查询过程

假设,执行查询的语句是 select id from test where k=5。

  • 对于普通索引来说,查找到满足条件的第一个记录(5,500)后,需要查找下一个记录,直到碰到第一
    个不满足k=5条件的记录。
  • 对于唯一索引来说,由于索引定义了唯一性,查找到第一个满足条件的记录后,就会停止继续检
    索。

那么,这个不同带来的性能差距会有多少呢?答案是, 微乎其微

11.2 更新过程

为了说明普通索引和唯一索引对更新语句性能的影响这个问题,介绍一下change buffer。

当需要更新一个数据页时,如果数据页在内存中就直接更新,而如果这个数据页还没有在内存中的话,
在不影响数据一致性的前提下, InooDB会将这些更新操作缓存在change buffer中 ,这样就不需要从磁
盘中读入这个数据页了。在下次查询需要访问这个数据页的时候,将数据页读入内存,然后执行change
buffer中与这个页有关的操作。通过这种方式就能保证这个数据逻辑的正确性。

将change buffer中的操作应用到原数据页,得到最新结果的过程称为 merge 。除了 访问这个数据页 会触
发merge外,系统有 后台线程会定期 merge。在 数据库正常关闭(shutdown) 的过程中,也会执行merge
操作。

如果能够将更新操作先记录在change buffer, 减少读磁盘 ,语句的执行速度会得到明显的提升。而且,
数据读入内存是需要占用 buffer pool 的,所以这种方式还能够 避免占用内存 ,提高内存利用率。
唯一索引的更新就不能使用change buffer ,实际上也只有普通索引可以使用。

如果要在这张表中插入一个新记录(4,400)的话,InnoDB的处理流程是怎样的?

11.3 change buffer的使用场景

\1. 普通索引和唯一索引应该怎么选择?其实,这两类索引在查询能力上是没差别的,主要考虑的是
对 更新性能 的影响。所以,建议你 尽量选择普通索引 。
\2. 在实际使用中会发现, 普通索引 和 change buffer 的配合使用,对于 数据量大 的表的更新优化
还是很明显的。
\3. 如果所有的更新后面,都马上 伴随着对这个记录的查询 ,那么你应该 关闭change buffer 。而在
其他情况下,change buffer都能提升更新性能。
\4. 由于唯一索引用不上change buffer的优化机制,因此如果 业务可以接受 ,从性能角度出发建议优
先考虑非唯一索引。但是如果”业务可能无法确保”的情况下,怎么处理呢?
首先, 业务正确性优先 。我们的前提是“业务代码已经保证不会写入重复数据”的情况下,讨论性能
问题。如果业务不能保证,或者业务就是要求数据库来做约束,那么没得选,必须创建唯一索引。
这种情况下,本节的意义在于,如果碰上了大量插入数据慢、内存命中率低的时候,给你多提供一
个排查思路。
然后,在一些“ 归档库 ”的场景,你是可以考虑使用唯一索引的。比如,线上数据只需要保留半年,
然后历史数据保存在归档库。这时候,归档数据已经是确保没有唯一键冲突了。要提高归档效率,
可以考虑把表里面的唯一索引改成普通索引。

12. 其它查询优化策略

12.1 EXISTS 和 IN 的区分

问题:

不太理解哪种情况下应该使用 EXISTS,哪种情况应该用 IN。选择的标准是看能否使用表的索引吗?

回答:

索引是个前提,其实选择与否还是要看表的大小。你可以将选择的标准理解为小表驱动大表。在这种方式下效率是最高的。

比如下面这样:

SELECT *FROM A WHERE cc IN (SELECT cc FROM B)

SELECT *FROM A WHERE EXISTS (SELECT cc FROM B WHERE B.cc=A.cc)

当驱动表A小于B时,用EXISTS。因为EXISTS的实现,相当于外表循环,实现的逻辑类似于:

for i in A
    for j in B
        if j.cc == i.cc then ...

当B小于A时用IN,因为实现的逻辑类似于:

for i in B
    for j in A
        if j.cc == i.cc then ...

哪个表小就用哪个表来驱动,A表小就用EXISTS,B表小就用IN。

12.2 COUNT(*)与COUNT(具体字段)效率

问: 在MySQL中统计数据表的行数,可以使用三种方式: SELECT COUNT(*)SELECT COUNT(1)SELECT COUNT(具体字段),使用这三者之间的查询效率是怎样的?

答:
前提: 如果你要统计的是某个字段的非空数据行数,则另当别论,毕竟比较执行效率的前提是结果一样才可以。

环节1: COUNT(*)COUNT(1)都是对所有结果进行COUNTCOUNT(*)COUNT(1)本质上并没有区别(二者执行时间可能略有差别,不过你还是可以把它俩的执行效率看成是相等的)。如果有WHERE子句,则是对所有符合筛选条件的数据行进行统计; 如果没有WHERE子句,则是对数据表的数据行数进行统计。

环节2: 如果是MyISAM存储引擎,统计数据表的行数只需要o(1)的复杂度,这是因为每张 MyISAM的数据表都有一个meta 信息存储了row_count值,而一致性则由表级锁来保证。

如果是InnoDB存储引擎,因为InnoDB支持事务,采用行级锁和MVCC机制,所以无法像MyISAM一样,维护一个row_count变量,因此需要采用扫描全表,是o(n) 复杂度,进行循环+计数的方式来完成统计。

环节(重点)3:在InnoDB引擎中,如果采用COUNT(具体字段)来统计数据行数,要尽量采用二级索引。因为主键采用的索引是聚簇索引,聚簇索引包含的信息多,明显会大于二级索引(非聚簇索引)。对于COUNT(*)COUNT(1)来说,它们不需要查找具体的行,只是统计行数,系统会自动采用占用空间更小的二级索引来进行统计。

如果有多个二级索引,会使用key_len索引长度更小的二级索引进行扫描。当没有二级索引的时候,才会采用主键索引来进行统计。

12.3 关于SELECT(*)

在表查询中,建议明确字段,不要使用 作为查询的字段列表,推荐使用SELECT <字段列表> 查询。原因:
① MySQL 在解析的过程中,会通过 **查询数据字典**** 将”
“按序转换成所有列名,这会大大的耗费资源和时
间。
② 无法使用 `覆盖索引**`

12.4 LIMIT 1 对优化的影响

针对的是会扫描全表的 SQL 语句,如果你可以确定结果集只有一条,那么加上 LIMIT 1 的时候,当找
到一条结果的时候就不会继续扫描了,这样会加快查询速度。

如果数据表已经对字段建立了唯一索引,那么可以通过索引进行查询,不会全表扫描的话,就不需要加
**LIMIT 1** 了。

12.5 多使用COMMIT

只要有可能,在程序中尽量多使用 COMMIT,这样程序的性能得到提高,需求也会因为 COMMIT 所释放
的资源而减少。

COMMIT 所释放的资源:

  • 回滚段上用于恢复数据的信息
  • 被程序语句获得的锁
  • redo / undo log buffer 中的空间
  • 管理上述 3 种资源中的内部花费

13. 淘宝数据库,主键如何设计的?

聊一个实际问题:淘宝的数据库,主键是如何设计的?
某些错的离谱的答案还在网上年复一年的流传着,甚至还成为了所谓的MySQL军规。其中,一个最明显的错误就是关于MySQL的主键设计。

大部分人的回答如此自信:用8字节的 BIGINT 做主键,而不要用INT。

这样的回答,只站在了数据库这一层,而没有 从业务的角度 思考主键。主键就是一个自增ID吗?站在2022年的新年档口,用自增做主键,架构设计上可能 连及格都拿不到

13.1 自增ID的问题

自增ID做主键,简单易懂,几乎所有数据库都支持自增类型,只是实现上各自有所不同而已。自增ID除了简单,其他都是缺点,总体来看存在以下几方面的问题:

  1. 可靠性不高
    存在自增ID回溯的问题,这个问题直到最新版本的MySQL 8.0才修复。
  2. 安全性不高
    对外暴露的接口可以非常容易猜测对应的信息。比如:/User/1/这样的接口,可以非常容易猜测用户ID的
    值为多少,总用户数量有多少,也可以非常容易地通过接口进行数据的爬取。
  3. 性能差
    自增ID的性能较差,需要在数据库服务器端生成。
  4. 交互多
    业务还需要额外执行一次类似 last_insert_id() 的函数才能知道刚才插入的自增值,这需要多一次的网络交互。在海量并发的系统中,多1条SQL,就多一次性能上的开销。
  5. 局部唯一性
    最重要的一点,自增ID是局部唯一,只在当前数据库实例中唯一,而不是全局唯一,在任意服务器间都是唯一的。对于目前分布式系统来说,这简直就是噩梦。

13.2 业务相关字段做主键

为了能够唯一地标识一个会员的信息,需要为 会员信息表 设置一个主键。那么,怎么为这个表设置主键,才能达到我们理想的目标呢? 这里我们考虑业务字段做主键。

表数据如下:

image.png

在这个表里,哪个字段比较合适呢?

  • 选择卡号(cardno)
    会员卡号(cardno)看起来比较合适,因为会员卡号不能为空,而且有唯一性,可以用来 标识一条会员记录。
mysql> CREATE TABLE demo.membermaster
-> (
-> cardno CHAR(8) PRIMARY KEY, -- 会员卡号为主键
-> membername TEXT,
-> memberphone TEXT,
-> memberpid TEXT,
-> memberaddress TEXT,
-> sex TEXT,
-> birthday DATETIME
-> );
Query OK, 0 rows affected (0.06 sec)

不同的会员卡号对应不同的会员,字段“cardno”唯一地标识某一个会员。如果都是这样,会员卡号与会员一一对应,系统是可以正常运行的。

但实际情况是, 会员卡号可能存在重复使用 的情况。比如,张三因为工作变动搬离了原来的地址,不再到商家的门店消费了 (退还了会员卡),于是张三就不再是这个商家门店的会员了。但是,商家不想让这个会 员卡空着,就把卡号是“10000001”的会员卡发给了王五。

从系统设计的角度看,这个变化只是修改了会员信息表中的卡号是“10000001”这个会员 信息,并不会影响到数据一致性。也就是说,修改会员卡号是“10000001”的会员信息, 系统的各个模块,都会获取到修改后的会员信息,不会出现“有的模块获取到修改之前的会员信息,有的模块获取到修改后的会员信息,而导致系统内部数据不一致”的情况。因此,从 信息系统层面 上看是没问题的。

但是从使用 系统的业务层面 来看,就有很大的问题 了,会对商家造成影响。

比如,我们有一个销售流水表(trans),记录了所有的销售流水明细。2020 年 12 月 01 日,张三在门店购买了一本书,消费了 89 元。那么,系统中就有了张三买书的流水记录,如下所示:

image.png

接着,我们查询一下 2020 年 12 月 01 日的会员销售记录:

mysql> SELECT b.membername,c.goodsname,a.quantity,a.salesvalue,a.transdate
-> FROM demo.trans AS a
-> JOIN demo.membermaster AS b
-> JOIN demo.goodsmaster AS c
-> ON (a.cardno = b.cardno AND a.itemnumber=c.itemnumber);
+------------+-----------+----------+------------+---------------------+
| membername | goodsname | quantity | salesvalue | transdate |
+------------+-----------+----------+------------+---------------------+
| 张三 | 书 | 1.000 | 89.00 | 2020-12-01 00:00:00 |
+------------+-----------+----------+------------+---------------------+
1 row in set (0.00 sec)

如果这个时候会员卡“10000001”又发给了王五,我们会更改会员信息表。导致查询时:

mysql> SELECT b.membername,c.goodsname,a.quantity,a.salesvalue,a.transdate
-> FROM demo.trans AS a
-> JOIN demo.membermaster AS b
-> JOIN demo.goodsmaster AS c
-> ON (a.cardno = b.cardno AND a.itemnumber=c.itemnumber);
+------------+-----------+----------+------------+---------------------+
| membername | goodsname | quantity | salesvalue | transdate |
+------------+-----------+----------+------------+---------------------+
| 王五 | 书 | 1.000 | 89.00 | 2020-12-01 00:00:00 |
+------------+-----------+----------+------------+---------------------+
1 row in set (0.01 sec)

这次得到的结果是:王五在 2020 年 12 月 01 日,买了一本书,消费 89 元。显然是错误的!
结论:千万不能把会员卡号当做主键。

  • 选择会员电话 或 身份证号

会员电话可以做主键吗?不行的。在实际操作中,手机号也存在 被运营商收回 ,重新发给别人用的情况。

那身份证号行不行呢?好像可以。因为身份证决不会重复,身份证号与一个人存在一一对 应的关系。可问题是,身份证号属于 个人隐私 ,顾客不一定愿意给你。要是强制要求会员必须登记身份证号,会把很多客人赶跑的。其实,客户电话也有这个问题,这也是我们在设计会员信息表的时候,允许身份证号和电话都为空的原因。

所以,建议尽量不要用跟业务有关的字段做主键。毕竟,作为项目设计的技术人员,我们谁也无法预测
在项目的整个生命周期中,哪个业务字段会因为项目的业务需求而有重复,或者重用之类的情况出现。

经验:

刚开始使用 MySQL 时,很多人都很容易犯的错误是喜欢用业务字段做主键,想当然地认为了解业务需求,但实际情况往往出乎意料,而更改主键设置的成本非常高。

13.3 淘宝的主键设计

在淘宝的电商业务中,订单服务是一个核心业务。请问, 订单表的主键 淘宝是如何设计的呢?是自增ID吗?

打开淘宝,看一下订单信息,可以发现,订单号不是自增ID!我们详细看下下述4个订单号:

1550672064762308113
1481195847180308113
1431156171142308113
1431146631521308113

订单号是19位的长度,且订单的最后5位都是一样的,都是08113。且订单号的前面14位部分是单调递增
的。
大胆猜测,淘宝的订单ID设计应该是:

订单ID = 时间 + 去重字段 + 用户ID后6位尾号

这样的设计能做到全局唯一,且对分布式系统查询及其友好。

13.4 推荐的主键设计

注:虽然说有序的UUID是可行的,但好像分布式下的系统喜欢用雪花算法是怎么回事。

非核心业务 对应表的主键设置为自增ID是没问题的,如告警、日志、监控等信息。

核心业务 对应表的主键设计至少应该是全局唯一且是单调递增。全局唯一保证在各系统之间都是唯一的,单调递增是希望插入时不影响数据库性能。

这里推荐最简单的一种主键设计:UUID()。

UUID的特点:

全局唯一,占用36字节,数据无序,插入性能差。(正因为后面这几个特点,UUID不被推荐作为主键)

认识UUID:

  • 为什么UUID是全局唯一的?
  • 为什么UUID占用36个字节?
  • 为什么UUID是无序的?

MySQL数据库的UUID组成如下所示:

SELECT UUID() FROM DUAL; #格式 UUID = 时间+UUID版本(16字节)- 时钟序列(4字节) - MAC地址(12字节)

我们以UUID值e0ea12d4-6473-11eb-943c-00155dbaa39d举例 :

image.png

为什么UUID是全局唯一的?

在UUID中时间部分占用60位,存储的类似TIMESTAMP的时间戳,但表示的是从1582-10-15 00:00:00.00到现在的100ns的计数。可以看到UUID存储的时间精度比TIMESTAMPE更高,时间维度发生重复的概率降低到1/100ns。
时钟序列是为了避免时钟被回拨导致产生时间重复的可能性。MAC地址用于全局唯一。

为什么UUID占用36个字节?

UUID根据字符串进行存储,设计时还带有无用”-“字符串,因此总共需要36个字节。

为什么UUID是随机无序的呢?

因为UUID的设计中,将时间低位放在最前面,而这部分的数据是一直在变化的,并且是无序。

改造UUID

若将时间高低位互换,则时间就是单调递增的了,也就变得单调递增了。MySQL 8.0可以更换时间低位和时间高位的存储方式,这样UUID就是有序的UUID了。

MySQL 8.0还解决了UUID存在的空间占用的问题,除去了UUID字符串中无意义的”-“字符串,并且将字符串用二进制类型保存,这样存储空间降低为了16字节。

可以通过MySQL8.0提供的uuid_to_bin函数实现上述功能,同样的,MySQL也提供了bin_to_uuid函数进行转化:

SET @uuid = UUID();
SELECT @uuid,uuid_to_bin(@uuid),uuid_to_bin(@uuid,TRUE);
# uuid_to_bin(@uuid) 转成16进制存储
# uuid_to_bin(@uuid,TRUE); 修改成先高位 中位 地位,就可以保证uuid地政了

image.png

通过函数uuid_to_bin(@uuid,true)将UUID转化为有序UUID了。全局唯一 + 单调递增,这不就是我们想要的主键!

4、有序UUID性能测试

16字节的有序UUID,相比之前8字节的自增ID,性能和存储空间对比究竟如何呢?

我们来做一个测试,插入1亿条数据,每条数据占用500字节,含有3个二级索引,最终的结果如下所示:

image.png

从上图可以看到插入1亿条数据有序UUID是最快的,而且在实际业务使用中有序UUID在 业务端就可以生
成 。还可以进一步减少SQL的交互次数。

另外,虽然有序UUID相比自增ID多了8个字节,但实际只增大了3G的存储空间,还可以接受。

在当今的互联网环境中,非常不推荐自增ID作为主键的数据库设计。更推荐类似有序UUID的全局唯一的实现。

另外在真实的业务系统中,主键还可以加入业务和系统属性,如用户的尾号,机房的信息等。这样的主键设计就更为考验架构师的水平了。

如果不是MySQL8.0 肿么办?

手动赋值字段做主键!

比如,设计各个分店的会员表的主键,因为如果每台机器各自产生的数据需要合并,就可能会出现主键重复的问题。

可以在总部 MySQL 数据库中,有一个管理信息表,在这个表中添加一个字段,专门用来记录当前会员编号的最大值。

门店在添加会员的时候,先到总部 MySQL 数据库中获取这个最大值,在这个基础上加 1,然后用这个值作为新会员的“id”,同时,更新总部 MySQL 数据库管理信息表中的当 前会员编号的最大值。

这样一来,各个门店添加会员的时候,都对同一个总部 MySQL 数据库中的数据表字段进 行操作,就解决了各门店添加会员时会员编号冲突的问题。