Mysql - 十二、SQL优化 - 《Java 从基础到进阶》

SQL优化

SQL优化

3.1 SQL执行顺序

Mysql中一个查询语句的执行顺序

a.select
b.distinct
c.from
d.join
e.on
f.where
g.group by
h.having
i.order by
j.limit
Mysql中的执行顺序：
1.from
笛卡尔积计算 生成虚拟表v1
2.on
过滤数据 再次生成虚拟表v2
3.join
添加外部数据 v3
4.where
条件过滤 v4
5.group by
分组 
6.聚合函数
avg max min sum count
7.having
条件过滤
8.select
查询需要的字段
9.distinct
去重重复结果
10.order by
排序 
11.limit
分页

请解释on、where、having的区别？

Mysql是如何执行sql语句的：
客户端(Java程序 JDBC)—->连接器(DBMS)——>查询缓存——>分析器——>优化器——->执行器——>结果
把能过滤掉大量数据的条件进行前置处理，比如考虑on做筛选

3.2 优化步骤

定位：
发现需要优化的sql语句
常用的方式：
1.慢查询
Mysql默认支持慢查询就是可以设置将执行过慢的sql语句记录到日志中

2.Druid
SQL监控
3.第三方工具
Innotop、mysqltuner.pl
4.Java代码
aop实现查询语句超时记录

5.云数据库
阿里云、腾讯云 sql检测报告优化建议
分析：
需要明白慢的原因
1.并发量
2.数据量
3.最短路径
4.索引（重点）—复合索引最左前缀原则
5.计算
6.冗余
结合项目，对号入座
解决：
1.并发量—
1.程序中数据库连接池控制有效连接，提高连接的复用率
2.扩容-Mysql服务器 —搭建Mysql集群
3.数据库读写分离查询多 —Mycat
写库（主库）—->InnoDB ,
读库（从库）——>Myisma
二进制日志

2.数据量
1.数据分片垂直分片水平分片 Mycat— 分片算法

3.最短路径
1.分析表关系关系型数据库最短关系
2.梳理sql语句

4.索引（重点）—复合索引最左前缀原则
1.索引是否合适之前是否有过相关索引冗余
2.索引的数量
3.索引生效
4.索引复合索引的字段顺序最左匹配原则
索引在那些情况下会失效：自己验证
5.覆盖索引

5.计算
1.避免在查询字段上做运算
2.避免条件查询字段做运算

6.冗余
1.sql语句存在冗余需要结合业务逻辑
2.保证网络环境

项目经验：冷静程序无中生有
1.定位问题—debug、打印日志
2.分析问题—找到原因
3.解决问题—针对原因解决问题
需求—->反问—->分析—->实现思路——>

3.3 优化总结

1、你必须选择记录条数最少的表作为基础表
from 是从前往后检索的，所以要最少记录的表放在最前面。
2、采用自下而上的顺序解析WHERE子句,根据这个原理,表之间的连接必须写在其他WHERE条件之前, 那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。同时在链接的表中能过滤的就应该先进行过滤。
where是从后往前检索，所以能过滤最多数据的条件应放到最后。
3、SELECT子句中避免使用 ‘‘
4、尽量多使用COMMIT
5、计算记录条数时候，第一快：count(索引列)，第二快：cout()
6、用WHERE子句替换HAVING子句
7、通过内部函数提高SQL效率
8、使用表的别名(Alias)
9、用EXISTS替代IN
10、用NOT EXISTS替代NOT IN
11、用表连接替换EXISTS
12、用索引提高效率
13、尽量避免在索引列上使用计算，
包括在SELECT后面 WHERE后面等任何地方，因为在索引列上计算会导致索引失效。
14、避免在索引列上使用NOT
在索引列使用not会导致索引失效。
15、用>=替代>
16、用UNION替换OR (适用于索引列)
17、用IN来替换OR
18、避免在索引列上使用IS NULL和IS NOT NULL
19、总是使用索引的第一个列
20、尽量用UNION-ALL 替换UNION ( 如果有可能的话)
21、ORDER BY 子句只在两种严格的条件下使用索引.
22、避免改变索引列的类型
23、需要当心的WHERE子句
24、避免使用耗费资源的操作（如DISTINCT,UNION,MINUS,INTERSECT,ORDER BY等）

3.4 阿里巴巴Java开发规范

《阿里巴巴Java开发规范》+58到家 SQL军规
一、基础规范

表存储引擎必须使用InnoDB
表字符集默认使用utf8，必要时候使用utf8mb4

解读：

通用，无乱码风险，汉字3字节，英文1字节
utf8mb4是utf8的超集，有存储4字节例如表情符号时，使用它

禁止使用存储过程，视图，触发器，Event

解读：

对数据库性能影响较大，互联网业务，能让站点层和服务层干的事情，不要交到数据库层
调试，排错，迁移都比较困难，扩展性较差

禁止在数据库中存储大文件，例如照片，可以将大文件存储在对象存储系统，数据库中存储路径
禁止在线上环境做数据库压力测试
测试，开发，线上数据库环境必须隔离

二、命名规范

库名，表名，列名必须用小写，采用下划线分隔

解读：abc，Abc，ABC都是给自己埋坑

库名，表名，列名必须见名知义，长度不要超过32字符

解读：tmp，wushan谁TM知道这些库是干嘛的

库备份必须以bak为前缀，以日期为后缀
从库必须以-s为后缀
备库必须以-ss为后缀

三、表设计规范

单实例表个数必须控制在2000个以内
单表分表个数必须控制在1024个以内
表必须有主键，推荐使用UNSIGNED整数为主键

潜在坑：删除无主键的表，如果是row模式的主从架构，从库会挂住

禁止使用外键，如果要保证完整性，应由应用程式实现

解读：外键使得表之间相互耦合，影响update/delete等SQL性能，有可能造成死锁，高并发情况下容易成为数据库瓶颈

建议将大字段，访问频度低的字段拆分到单独的表中存储，分离冷热数据

四、列设计规范

根据业务区分使用tinyint/int/bigint，分别会占用1/4/8字节
根据业务区分使用char/varchar

解读：

字段长度固定，或者长度近似的业务场景，适合使用char，能够减少碎片，查询性能高
字段长度相差较大，或者更新较少的业务场景，适合使用varchar，能够减少空间

根据业务区分使用datetime/timestamp
解读：前者占用5个字节，后者占用4个字节，存储年使用YEAR，存储日期使用DATE，存储时间使用datetime
必须把字段定义为NOT NULL并设默认值

解读：

NULL的列使用索引，索引统计，值都更加复杂，MySQL更难优化
NULL需要更多的存储空间
NULL只能采用IS NULL或者IS NOT NULL，而在=/!=/in/not in时有大坑

使用INT UNSIGNED存储IPv4，不要用char(15)
使用varchar(20)存储手机号，不要使用整数

解读：

牵扯到国家代号，可能出现+/-/()等字符，例如+86
手机号不会用来做数学运算
varchar可以模糊查询，例如like ‘138%’

使用TINYINT来代替ENUM

解读：ENUM增加新值要进行DDL操作
五、索引规范

唯一索引使用uniq_[字段名]来命名
非唯一索引使用idx_[字段名]来命名
单张表索引数量建议控制在5个以内

解读：

互联网高并发业务，太多索引会影响写性能
生成执行计划时，如果索引太多，会降低性能，并可能导致MySQL选择不到最优索引
异常复杂的查询需求，可以选择ES等更为适合的方式存储

组合索引字段数不建议超过5个

解读：如果5个字段还不能极大缩小row范围，八成是设计有问题

不建议在频繁更新的字段上建立索引
非必要不要进行JOIN查询，如果要进行JOIN查询，被JOIN的字段必须类型相同，并建立索引

解读：踩过因为JOIN字段类型不一致，而导致全表扫描的坑么？

理解组合索引最左前缀原则，避免重复建设索引，如果建立了(a,b,c)，相当于建立了(a), (a,b), (a,b,c)

六、SQL规范

禁止使用select *，只获取必要字段

解读：

select *会增加cpu/io/内存/带宽的消耗
指定字段能有效利用索引覆盖
指定字段查询，在表结构变更时，能保证对应用程序无影响

insert必须指定字段，禁止使用insert into T values()

解读：指定字段插入，在表结构变更时，能保证对应用程序无影响

隐式类型转换会使索引失效，导致全表扫描
禁止在where条件列使用函数或者表达式

解读：导致不能命中索引，全表扫描

禁止负向查询以及%开头的模糊查询

解读：导致不能命中索引，全表扫描

禁止大表JOIN和子查询
同一个字段上的OR必须改写成IN，IN的值必须少于50个
应用程序必须捕获SQL异常

解读：方便定位线上问题