基本语句
mysql是一种关系型数据库管理系统
数据库:按照结构来组织,存储和管理数据的仓库
创建数据库:create database 数据库名;
删除数据库:drop database 数据库名;(mysqladmin,PHP脚本mysql_query都可以删除数据库)
创建表: caeate table 表名;
create table if no exists ‘tabname’(‘tid’ int unsigned auto_increment,
‘tname’ varchar(100) not null,
‘tdate’ date,
primary key (‘tid’)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
create table Student(S varchar(10),”tdate” datetime) ;
删除表:delete,truncate,drop(只删除值>>删除事务>>删除表结构)
SQL分类:DDL(create,drop,alter),DML(insert,update,delete),DQL(select),
DCL(grant授权,revoke),TPL(begin,transaction,commit提交,rollback),CCL(cursor)
UNION[ALL | DISTINCT] 取两个查询结果[保留重复元素|不保留重复元素(默认不写)] 写法:语句1 union 语句2;
ORDER BY[ASC|DESC] 默认升序
alter添加列
聚合函数:sum,avg,max,min,count
between A and B :在AB之间
group by 根据查询结果分组(只能和查询条件和聚合函数作为条件)
WITH ROLLUP 在分组的基础上再进行统计计算
SELECT name, SUM(singin) as singin_count FROM employee_tbl GROUP BY name WITH ROLLUP;
having:在 SQL 中增加 HAVING 子句原因是,WHERE 关键字无法与合计函数一起使用。
top 规定返回记录的数目
case 计算条件列表,并返回多个可能的结果表达式之一。
http://www.suoniao.com/article/45091
查询姓氏不为”张”,”李”的同学信息(可以用or,也可以not like,也可以把^替换为!)
select id,name from student where name like “[^张李]%”
联合查询
自然查询,等值查询,内/左/右连查询
select from t1,t2 where t1.id = t2.id;{效率低)
select from T1 inner join T2 on T1.id=T2.id;
通配符和正则表达式
%;_;
^&目标字符串开始与结束
. 英文下.代表一个字符;UTF-8编码…代表一个汉字;GBK编码中..代表一个汉字
[] [abc]代表’a’,’b’,’c’ [a-z]匹配全部字母
{n} 重复n次(.{4}
,表示的意思同 模式 ....
一样)
SQL标准模式使用 LIKE
和 NOT LIKE
操作符;正则表达式使用 REGEXP
和 NOT REGEXP
或者 RLIKE
和 NOT RLIKE
操作符
视图
封装内部细节,封装复杂的sql查询语句
新建create view 视图名字 as 查询sql
查询select * from 视图名字;
删除delete view 视图名字;
触发器
类型:行级触发器,表级触发器
条件:时间(after,before);操作方式(insert,update,delete)
语法格式:create trigger 触发器名字 时间 操作方式 on 表名 for each row
begin
触发的sql
end;
函数
1.聚合函数:sum,avg,max,min,count
2.数学函数:abs,pow,round,rand,floor
3.字符串函数:concat、substr、reverse、length
4.日期函数:now 、sysdate、date_format、year、to_day、month
5.其他函数:ifnull
存储过程
实现特定功能的代码块,没有返回值
delimiter $
create procedute 储存过程名称(参数类型,名称,类型,……)
begin
代码块
end
索引
最佳左匹配原则https://www.cnblogs.com/jice/p/13856682.html
因为在B+树种,联合索引(a,b,c) 是从左到右的。 此时,如果where b and c 这时没有a,那么在B+树种无法找到第一个索引,所以无法走索引。
复合索引https://www.cnblogs.com/ashou706/archive/2010/06/08/1754174.html
分类:主键,唯一,普通,复合
索引的底层:B+Tree(Mysql 的InnoDB存储引擎)
create [unique] index 索引名称 on 表名(字段)
create index name on table1(id)
索引的失效场景
https://blog.csdn.net/xcc_2269861428/article/details/98757607
explain
https://www.cnblogs.com/gomysql/p/3720123.html
explain可以模拟优化器执行sql语句,从而了解到mysql是如何处理sql的
使用方法:explan + sql语句
- 表的读取顺序
- 数据读取操作的操作类型
- 哪些索引可以使用
- 哪些索引被实际使用
- 表之间的引用
- 每张表有多少行被优化器查询
id
id相同,执行顺序由上至下
id不同,如果是子查询,id的序号会递增,id值越大优先级越高,越先被执行 id相同不同,同时存在 id相同的可以认为是一组,同一组中从上往下执行,所有组中id大的优先执行 type type所显示的是查询使用了哪种类型,type包含的类型包括如下图所示的几种,从好到差依次是 system > const > eq_ref > ref > range > index > all system 表只有一行记录(等于系统表),这是const类型的特列,平时不会出现,这个也可以忽略不计 const 表示通过索引一次就找到了,const用于比较primary key 或者unique索引。因为只匹配一行数据,所以很快。如将主键置于where列表中,MySQL就能将该查询转换为一个常量。
eq_ref 唯一性索引扫描,对于每个索引键,表中只有一条记录与之匹配。常见于主键或唯一索引扫描 ref 非唯一性索引扫描,返回匹配某个单独值的所有行,本质上也是一种索引访问,它返回所有匹配某个单独值的行,然而,它可能会找到多个符合条件的行,所以他应该属于查找和扫描的混合体。
range 只检索给定范围的行,使用一个索引来选择行,key列显示使用了哪个索引,一般就是在你的where语句中出现between、< 、>、in等的查询,这种范围扫描索引比全表扫描要好,因为它只需要开始于索引的某一点,而结束于另一点,不用扫描全部索引。
index Full Index Scan,Index与All区别为index类型只遍历索引树。这通常比ALL快,因为索引文件通常比数据文件小。(也就是说虽然all和Index都是读全表,但index是从索引中读取的,而all是从硬盘读取的)
all Full Table Scan 将遍历全表以找到匹配的行
possible_keys 和 key possible_keys 显示可能应用在这张表中的索引,一个或多个。查询涉及到的字段上若存在索引,则该索引将被列出,但不一定被查询实际使用。 key实际使用的索引,如果为NULL,则没有使用索引。(可能原因包括没有建立索引或索引失效)
key_len 表示索引中使用的字节数,可通过该列计算查询中使用的索引的长度,在不损失精确性的情况下,长度越短越好。 rows 根据表统计信息及索引选用情况,大致估算出找到所需的记录所需要读取的行数,也就是说,用的越少越好
Extra Using filesort 说明mysql会对数据使用一个外部的索引排序,而不是按照表内的索引顺序进行读取。MySQL中无法利用索引完成的排序操作称为“文件排序”。 Using temporary 使用了用临时表保存中间结果,MySQL在对查询结果排序时使用临时表。常见于排序order by和分组查询group by。
Using index 表示相应的select操作中使用了覆盖索引(Covering Index),避免访问了表的数据行,效率不错。如果同时出现using where,表明索引被用来执行索引键值的查找;如果没有同时出现using where,表明索引用来读取数据而非执行查找动作。 Using join buffer 表明使用了连接缓存,比如说在查询的时候,多表join的次数非常多,那么将配置文件中的缓冲区的join buffer调大一些
sql优化
mysql查询语句顺序:select,distinct,from,join,on,where,group by,having,order by,limit
mysql执行顺序:from,on,join,where,group by分组,聚合函数,having条件过滤,select,distinct去重,order by,limit
定位 :发现需要优化的sql语句();
发现方式:慢查询(日志),Druid(sql监控),第三方工具(Innotop、mysqltuner.pl),云数据库(阿里云、腾讯云 sql检测报告 优化建议)
分析:需要明白慢的原因
1.并发量
2.数据量
3.最短路径
4.索引(重点)—复合索引 最左前缀原则
5.计算
6.冗余
解决:
1.并发量— 1.程序中数据库连接池 控制有效连接,提高连接的复用率 2.扩容-Mysql服务器 —搭建Mysql集群 3.数据库读写分离 查询多 写库(主库)—->InnoDB 读库(从库)——>Myisma 二进制日志
2.数据量 1.数据分片 垂直分片 水平分片 Mycat— 分片算法
3.最短路径 1.分析表关系 关系型数据库 最短关系 2.梳理sql语句
4.索引(重点)—复合索引 最左前缀原则 1.索引是否合适 之前是否有过相关索引 冗余 2.索引的数量 3.索引生效 4.索引 复合索引的字段顺序 最左匹配原则 索引在那些情况下会失效:自己验证
5.计算 1.避免在查询字段上做运算 2.避免条件查询字段做运算
6.冗余 1.sql语句存在冗余 需要结合业务逻辑
1.定位问题—debug、打印日志
2.分析问题—找到原因
3.解决问题—针对原因 解决问题
需求—->反问—->分析—->实现思路——>
3.3 优化总结
1、你必须选择记录条数最少的表作为基础表 from 是从前往后检索的,所以要最少记录的表放在最前面。 2、采用自下而上的顺序解析WHERE子句,根据这个原理,表之间的连接必须写在其他WHERE条件之前, 那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。同时在链接的表中能过滤的就应该先进行过滤。 where是从后往前检索,所以能过滤最多数据的条件应放到最后。 3、SELECT子句中避免使用 ‘‘ 4、尽量多使用COMMIT 5、计算记录条数时候,第一快:count(索引列),第二快:cout() 6、用WHERE子句替换HAVING子句 7、通过内部函数提高SQL效率 8、使用表的别名(Alias) 9、用EXISTS替代IN 10、用NOT EXISTS替代NOT IN 11、用表连接替换EXISTS 12、用索引提高效率 13、尽量避免在索引列上使用计算, 包括在SELECT后面 WHERE后面等任何地方,因为在索引列上计算会导致索引失效。 14、避免在索引列上使用NOT 在索引列使用not会导致索引失效。 15、用>=替代> 16、用UNION替换OR (适用于索引列) 17、用IN来替换OR 18、避免在索引列上使用IS NULL和IS NOT NULL 19、总是使用索引的第一个列 20、尽量用UNION-ALL 替换UNION ( 如果有可能的话) 21、ORDER BY 子句只在两种严格的条件下使用索引. 22、避免改变索引列的类型 23、需要当心的WHERE子句 24、避免使用耗费资源的操作(如DISTINCT,UNION,MINUS,INTERSECT,ORDER BY等)
《阿里巴巴Java开发规范》+58到家 SQL军规 一、基础规范
- 表存储引擎必须使用InnoDB
- 表字符集默认使用utf8,必要时候使用utf8mb4
解读:
- 通用,无乱码风险,汉字3字节,英文1字节
- utf8mb4是utf8的超集,有存储4字节例如表情符号时,使用它
- 禁止使用存储过程,视图,触发器,Event
解读:
- 对数据库性能影响较大,互联网业务,能让站点层和服务层干的事情,不要交到数据库层
- 调试,排错,迁移都比较困难,扩展性较差
- 禁止在数据库中存储大文件,例如照片,可以将大文件存储在对象存储系统,数据库中存储路径
- 禁止在线上环境做数据库压力测试
- 测试,开发,线上数据库环境必须隔离
二、命名规范
- 库名,表名,列名必须用小写,采用下划线分隔
解读:abc,Abc,ABC都是给自己埋坑
- 库名,表名,列名必须见名知义,长度不要超过32字符
解读:tmp,wushan谁TM知道这些库是干嘛的
- 库备份必须以bak为前缀,以日期为后缀
- 从库必须以-s为后缀
- 备库必须以-ss为后缀
三、表设计规范
- 单实例表个数必须控制在2000个以内
- 单表分表个数必须控制在1024个以内
- 表必须有主键,推荐使用UNSIGNED整数为主键
潜在坑:删除无主键的表,如果是row模式的主从架构,从库会挂住
- 禁止使用外键,如果要保证完整性,应由应用程式实现
解读:外键使得表之间相互耦合,影响update/delete等SQL性能,有可能造成死锁,高并发情况下容易成为数据库瓶颈
- 建议将大字段,访问频度低的字段拆分到单独的表中存储,分离冷热数据
四、列设计规范
- 根据业务区分使用tinyint/int/bigint,分别会占用1/4/8字节
- 根据业务区分使用char/varchar
解读:
- 字段长度固定,或者长度近似的业务场景,适合使用char,能够减少碎片,查询性能高
- 字段长度相差较大,或者更新较少的业务场景,适合使用varchar,能够减少空间
- 根据业务区分使用datetime/timestamp
解读:前者占用5个字节,后者占用4个字节,存储年使用YEAR,存储日期使用DATE,存储时间使用datetime- 必须把字段定义为NOT NULL并设默认值
解读:
- NULL的列使用索引,索引统计,值都更加复杂,MySQL更难优化
- NULL需要更多的存储空间
- NULL只能采用IS NULL或者IS NOT NULL,而在=/!=/in/not in时有大坑
- 使用INT UNSIGNED存储IPv4,不要用char(15)
- 使用varchar(20)存储手机号,不要使用整数
解读:
- 牵扯到国家代号,可能出现+/-/()等字符,例如+86
- 手机号不会用来做数学运算
- varchar可以模糊查询,例如like ‘138%’
- 使用TINYINT来代替ENUM
解读:ENUM增加新值要进行DDL操作 五、索引规范
- 唯一索引使用uniq_[字段名]来命名
- 非唯一索引使用idx_[字段名]来命名
- 单张表索引数量建议控制在5个以内
解读:
- 互联网高并发业务,太多索引会影响写性能
- 生成执行计划时,如果索引太多,会降低性能,并可能导致MySQL选择不到最优索引
- 异常复杂的查询需求,可以选择ES等更为适合的方式存储
- 组合索引字段数不建议超过5个
解读:如果5个字段还不能极大缩小row范围,八成是设计有问题
- 不建议在频繁更新的字段上建立索引
- 非必要不要进行JOIN查询,如果要进行JOIN查询,被JOIN的字段必须类型相同,并建立索引
解读:踩过因为JOIN字段类型不一致,而导致全表扫描的坑么?
- 理解组合索引最左前缀原则,避免重复建设索引,如果建立了(a,b,c),相当于建立了(a), (a,b), (a,b,c)
六、SQL规范
- 禁止使用select *,只获取必要字段
解读:
- select *会增加cpu/io/内存/带宽的消耗
- 指定字段能有效利用索引覆盖
- 指定字段查询,在表结构变更时,能保证对应用程序无影响
- insert必须指定字段,禁止使用insert into T values()
解读:指定字段插入,在表结构变更时,能保证对应用程序无影响
- 隐式类型转换会使索引失效,导致全表扫描
- 禁止在where条件列使用函数或者表达式
解读:导致不能命中索引,全表扫描
- 禁止负向查询以及%开头的模糊查询
解读:导致不能命中索引,全表扫描
- 禁止大表JOIN和子查询
- 同一个字段上的OR必须改写成IN,IN的值必须少于50个
- 应用程序必须捕获SQL异常
解读:方便定位线上问题
sql语句练习
http://www.imooc.com/article/1353
查询年纪最大的学生
select from student where age=(select max(age) from student)
查询入职年龄倒数第三的员工信息
select from employees order by birth_date desc limit 2,1;
MySQL存储引擎
https://blog.csdn.net/zhangyuan19880606/article/details/51217952
不同的引擎特点不同:存储机制、索引技巧、锁定水平
查看当前引擎:SHOW ENGINES
功 能 | MYISAM | Memory | InnoDB | Archive |
---|---|---|---|---|
存储限制 | 256TB | RAM | 64TB | None |
支持事物 | No | No | Yes | No |
支持全文索引 | Yes | No | No | No |
支持数索引 | Yes | Yes | Yes | No |
支持哈希索引 | No | Yes | No | No |
支持数据缓存 | No | N/A | Yes | No |
支持外键 | No | No | Yes | No |
mysql事务
- 原子性(A):事务是最小单位,不可再分
- 一致性©:事务要求所有的DML语句操作的时候,必须保证同时成功或者同时失败
- 隔离性(I):事务A和事务B之间具有隔离性
- 持久性(D):是事务的保证,事务终结的标志(内存的数据持久到硬盘文件中)
MySQL隔离级别
SQL标准定义了4类隔离级别,包括了一些具体规则,用来限定事务内外的哪些改变是可见的,哪些是不可见的。低级别的隔离级一般支持更高的并发处理,并拥有更低的系统开销。 Read Uncommitted(读取未提交内容) 在该隔离级别,所有事务都可以看到其他未提交事务的执行结果。本隔离级别很少用于实际应用,因为它的性能也不比其他级别好多少。读取未提交的数据,也被称之为脏读(Dirty Read)。 Read Committed(读取提交内容) 这是大多数数据库系统的默认隔离级别(但不是MySQL默认的)。它满足了隔离的简单定义:一个事务只能看见已经提交事务所做的改变。这种隔离级别
也支持所谓的不可重复读(Nonrepeatable
Read),因为同一事务的其他实例在该实例处理其间可能会有新的commit,所以同一select可能返回不同结果。 Repeatable Read(可重读) 这是MySQL的默认事务隔离级别,它确保同一事务的多个实例在并发读取数据时,会看到同样的数据行。不过理论上,这会导致另一个棘手的问题:幻读
(Phantom
Read)。简单的说,幻读指当用户读取某一范围的数据行时,另一个事务又在该范围内插入了新行,当用户再读取该范围的数据行时,会发现有新的“幻影”
行。InnoDB和Falcon存储引擎通过多版本并发控制(MVCC,Multiversion Concurrency
Control)机制解决了该问题。 Serializable(可串行化) 这是最高的隔离级别,它通过强制事务排序,使之不可能相互冲突,从而解决幻读问题。简言之,它是在每个读的数据行上加上共享锁。在这个级别,可能导致大量的超时现象和锁竞争。
mysql悲观锁和乐观锁
https://www.cnblogs.com/cyhbyw/p/8869855.html
经典sql
此查询生成每小时登录次数
SELECT DATEADD(hour, DATEDIFF(hour, 0, EVENT_DATETIME), 0),
COUNT(*)
FROM EVENTS_ALL_RPT_V1
WHERE EVENT_NAME = 'Login'
AND EVENT_DATETIME >= CONVERT(DATETIME, '2010-03-17 00:00:00', 120)
AND EVENT_DATETIME <= CONVERT(DATETIME, '2010-03-24 00:00:00', 120)
GROUP BY DATEADD(hour, DATEDIFF(hour, 0, EVENT_DATETIME), 0)
ORDER BY DATEADD(hour, DATEDIFF(hour, 0, EVENT_DATETIME), 0)