1. SELECT 语句基础

1.1 从表中选取数据


SELECT 语句
从表中选取数据时需要使用SELECT语句,也就是只从表中选出(SELECT)必要的数据的意思。
通过SELECT语句查询并选取出必要数据的过程称为
匹配查询或者查询(query**)。

基本SELECT语句包含了SELECT子句FROM子句两个子句**(clause)**。示例如下:

  1. SELECT <列名>,
  2. FROM <表名>;

其中,SELECT子句中列举了希望从表中查询出的列的名称,而FROM子句则指定了选取出数据的表的名称。

1.2 从表中选取符合条件的数据

WHERE 语句
当不需要取出全部数据,而是选取出满足“商品种类为衣服”“销售单价在1000日元以上”等某些条件的数据时,使用WHERE语句。

SELECT语句通过WHERE子句来指定查询数据的条件。在WHERE子句中可以指定“某一列的值和这个字符串相等”或者“某一列的值大于这个数字”等条件。执行含有这些条件的SELECT语句,就可以查询出只符号改条件的记录了。

  1. SELECT <列名>, ……
  2. FROM <表名>
  3. WHERE <条件表达式>;

比较两者输出结果的不同:

  1. -- 用来选取“product_type”列为“衣服”的记录的SELECT语句
  2. SELECT product_name, product_type
  3. FROM product
  4. WHERE product_type = '衣服';
  5. -- 也可以选取出不是查询条件的列(条件列与输出列不同)
  6. SELECT product_name
  7. FROM product
  8. WHERE product_type = '衣服';

1.3相关法则

  • 星号(*)代表全部列的意思。
  • SQL中可以随意使用换行符,不影响语句执行(但不可以插入空行)。
  • SQL语句可以使用AS关键字为列设定别名,设定汉语别名时需要使用双引号(””)括起来。
  • 在SELECT语句中使用DISTINCT可以删除重复行。
  • 注释是SQL语句中用来标识说明或者注意事项的部分。分为1含注释(— 注释内容)和多行注释(/ 注释内容 /)两种。

    1. -- 想要查询出全部列是,可以使用代表所有列的星号(*)
    2. SELECT *
    3. FROM <表名>:
    4. -- SQL语句可以使用AS关键字为列设定别名,用中文时需要双引号(""
    5. SELECT product_id AS id,
    6. product_name AS name,
    7. purchase_price AS "进货价"
    8. FROM product;
    9. --使用DISTINCT剔除product_type列中重复的数据
    10. SELECT DISTINCT product_type
    11. FROM product;

2. 算术运算符和比较运算符

2.1 算术运算符

SQL语句中可以使用的四则运算的主要运算符如下:

运算符 含义
+ 加法
- 减法
* 乘法
/ 除法

2.2 比较运算符

  1. -- 选取出sale_price列为500的记录
  2. SELECT product_name, product_type
  3. FROM product
  4. WHERE sale_price = 500;

SQL常见比较运算符如下:

运算符 含义
= 和~相等
<> 和~不相等
>= 大于等于~
> 大于~
<= 小于等于~
< 小于~

2.3 常用法则

  • SELECT子句中可以用常数或者表达式。
  • 使用比较运算符时一定要注意不等号和等号的位置。
  • 字符串类型的数据原则上按照自动顺序进行排序,不能与数字的大小顺序混淆。
  • 希望选取NULL记录时,需要在表达式中使用 IS NULL 运算符。希望选取不是NULL的记录时,需要在条件表达式中使用IS NOT NULL运算符。

相关示例:
例子1:在SELECT子句或WHERE子句中使用运算表达式

  1. --- SQL语句中也可以使用运算表达式
  2. SELECT product_name, sale_price, sale_price*2 AS "sale_price x2"
  3. FROM product;
  4. -- WHERE子句的条件表达式中也可以使用运算表达式
  5. SELECT product_name, sale_price, purchase_price
  6. FROM product
  7. WHERE sale_price - purchase_price >= 500;

例子2:对字符串使用不等号等比较运算符进行查询。

  1. /* 对字符串使用不等号进行比较运算
  2. 1. 首先创建chars表,并插入数据
  3. 2. 使用选取出大于‘2’的SELECT语句进行查询 */
  4. -- DDL:创建表
  5. CREATE TABLE chars
  6. (chr CHAR(3) NOT NULL,
  7. PRIMARY KEY (chr));
  8. -- 选取出大于'2'的数据的SELECT语句
  9. SELECT chr
  10. FROM chars
  11. WHERE chr > '2';

例子3:NULL 的使用

  1. -- 选取NULL的记录
  2. SELECT product_name, purchase_price
  3. FROM product
  4. WHERE purchase_price IS NULL;
  5. -- 选取不为NULL的记录
  6. SELECT product_name, purchase_price
  7. FROM product
  8. WHERE purchase_price IS NOT NULL;

3. 逻辑运算

3.1 NOT 运算符

想要表示“不是……”时,除了前文的<>运算符外,还存在另外一个表示否定、使用范围广泛的运算符:NOT
NOT不能单独使用,如下例:

  1. -- 选取出销售单价大于等于1000日元的记录
  2. SELECT product_name, product_type, sale_price
  3. FROM product
  4. WHERE sale_price >= 1000;
  5. -- 向上面的代码的查询条件中添加NOT运算符
  6. SELECT product_name, product_type, sale_price
  7. FROM product
  8. WHERE NOT sale_price >= 1000; -- 此时选取条件则和上面完全相反


3.2 AND运算符和OR运算符

当希望同时使用多个查询条件时,可以使用AND或者OR运算符。

运算符 含义
AND 相当于“并且”,类似数学中的取交集;
OR 相当于“或者”,类似数学中的取并集;

如下图所示:

  • AND运算符工作效果图(这种图也叫文氏图)

ANDyunsuangfu.png


  • OR运算符工作效果图

ORyusuangfu.png

* 通过使用括号改变运算符的优先级
如果要查找如下这样一个商品,该怎么处理?

“商品种类为办公用品”并且“登记日期是2009年9月11日或者是2009年9月20日”

理想结果为“打孔器”,但是当你输入以下信息时,会得到错误结果。

  1. -- 将查询条件原封不动地写入条件表达式,会得到错误结果
  2. SELECT product_name, product_type, regist_date
  3. FROM product
  4. WHERE product_type = '办公用品'
  5. AND regist_date = '2009-09-11'
  6. OR regist_date = '2009-09-11';

错误的原因是AND运算符优先于OR运算符,想要优先执行OR运算,可以使用括号:

  1. -- 通过使用括号让OR运算符优先于AND运算符执行
  2. SELECT product_name, product_tpye, regist_date
  3. FROM product
  4. WHERE product_type = '办公用品'
  5. AND (regist_date = '2009-09-01'
  6. OR regist_date = '2009-09-11');

3.3 真值表

在日常使用SQL查询中,经常会遇到需要复杂条件查询的时候,而各种五花八门的复杂运算条件往往是令人头疼的一点。

复杂运算时该怎样理解?
当碰到条件较为复杂的语句时,理解语句含义并不容易,这时可以采用真值表来梳理逻辑关系。

什么是真值?
本节介绍的三个运算符NOT、 AND 和 OR称为逻辑运算符。这里的逻辑就是对真值进行操作的意思。
真值就是值为真(TRUE)或假(FALSE)其中之一的值。

例如,对于 sale_price >= 3000 这个查询条件来说,由于 product_name 列为 ‘运动 T 恤’ 的记录的 sale_price 列的值是 2800,因此会返回假(FALSE),而 product_name 列为 ‘高压锅’ 的记录的sale_price 列的值是 5000,所以返回真(TRUE)。


  • AND 运算符两侧的真值都为真时返回真,除此之外都返回假。
  • OR 运算符两侧的真值只要有一个不为假就返回真,只有当其两侧的真值都为假时才返回假。
  • NOT运算符只是单纯的将真转换为假,将假转换为真。

真值表
image.png

当查询条件为P AND (Q OR R)** 时的真值表
image.png

含有NULL时的真值
NULL的真值结果既不为真,也不为假**,因为并不知道这样一个值。

那该如何表示**NULL的真值结果**呢?
这时真值是除真假之外的第三种值——不确定(UNKNOWN)
一般的逻辑运算并不存在这第三种值。SQL 之外的语言也基本上只使用真和假这两种真值。与通常的逻辑运算被称为二值逻辑相对,只有 SQL 中的逻辑运算被称为三值逻辑。

三值逻辑下的AND和OR真值表为:
image.png

Product表中设置NOT NULL约束的原因
原本只有 4 行的真值表,如果要考虑 NULL 的话就会像表 2-6 那样增加为
3×3=9 行,看起来也变得更加繁琐,考虑 NULL 时的条件判断也会变得异常复杂,
这与我们希望的结果大相径庭。因此,数据库领域的有识之士们达成了“尽量不
使用 NULL”的共识。
这就是为什么在创建 Product 表时要给某些列设置 NOT NULL 约束(禁
止录入 NULL)的缘故。

4. 练习题——第一部分

4.1 编写SQL语句

问题:编写一条SQL语句,从product(商品)表中选取出“登记日期(regist_date)在2009年4月28日之后”的商品,查询结果要包含product_nameregist_date两列。

回答:

  1. SELECT product_name, regist_name
  2. FROM product
  3. WHERE regist_date >= '2009-04-028';

4.2 回答以下SELECT语句时的返回结果

请说出对product 表执行如下3条SELECT语句时的返回结果。

问题①:

  1. SELECT *
  2. FROM product
  3. WHERE purchase_price = NULL;

回答①:返回查询结果为无匹配记录。因为任何值与NULL值进行比较运算的真值结果都是UNKNOWN。在这里,UNKNOWN会被当做FALSE。

问题②:

  1. SELECT *
  2. FROM product
  3. WHERE purchase_price <> NULL;

回答②:同上。

问题③:

  1. SELECT *
  2. FROM product
  3. WHERE product_name > NULL;

回答③:同上。

拓展资料
UNKNOWN也不是在所有语言元素中都被当做FALSE来处理的,具体可以看以下链接:
SQL SERVER——UNKNOWN逻辑结果和NULL在不同的语言元素中被区别对待。

4.3 编写满足返回结果的SQL语句

代码清单2-22(2-2节)中的SELECT语句能够从product表中取出“销售单价(sale_price)比进货单价(purchase_price)高出500日元或以上”的商品。请写出两条可以得到相同结果的SELECT语句。执行结果如下所示。

product_name sale_price purchase_price
T恤衫 1000 500
运动T恤衫 4000 2800
高压锅 6800 5000

回答:

  1. SELECT product_name, sale_price, purchase_price
  2. FROM product
  3. WHERE sale_price - purchase_price >= 500;

4.4 编写符合条件的查询语句

问题:请写出一条SELECT语句,从product表中选取出满足“销售单价打九折之后利润高于100日元的办公用品和厨房用具”条件的记录。查询结果要包括product_name列、product_type列以及销售单价打九折之后的利润(别名设定为profit)。
提示:销售单价打九折,可以通过sale_price列的值乘以0.9获得,利润可以通过该值减purchase_price列的值获得。

回答:

  1. SELECT product_name, product_type,
  2. (sale_price*0.9 - purchase_price) AS profit
  3. FROM product
  4. WHERE sale_price*0.9 - purchase_price > 100;


5. 对表进行聚合查询

5.1 聚合函数

SQL中用于汇总的函数叫做聚合函数。以下五个是最常用的聚合函数:

  • COUNT:计算表中的记录数(行数)
  • SUM:计算表中数值列中数据的合计值
  • AVG:计算表中数值列中数据的平均值
  • MAX:求出表中任意列中数据的最大值
  • MIN:求出表中任意列中数据的最小值

示例:以下例子沿用前面的product表。

  1. -- 计算全部数据的行数(包含NULL
  2. SELECT COUNT(*)
  3. FROM product;
  4. -- 计算NULL以外数据的行数
  5. SELECT COUNT(purchase_price)
  6. FROM product;
  7. -- 计算销售单价和进货单价的合计值
  8. SELECT SUM(sale_price), SUM(purchase_price)
  9. FROM product;
  10. -- 计算销售单价和进货单价的平均值
  11. SELECT AVG(sale_price), AVG(purchase_price)
  12. FROM product;
  13. -- MAXMIN也可用于非数值型数据
  14. SELECT MAX(regist_date), MIN(regist_date)
  15. FROM product;

使用聚合函数删除重复值

  1. -- 计算去除重复数据后的数据行数
  2. SELECT COUNT(DISTINCT product_type)
  3. FROM product;
  4. -- 是否使用DISTINCT时的动作差异(SUM函数)
  5. SELECT SUM(sale_price), SUM(DISTINCT sale_price)
  6. FROM product;

5.2 常用法则

  • COUNT函数的结果根据参数的不同而不同。COUNT(*)会得到包含NULL的数据行数,而COUNT(<列名>)会得到NULL之外的数据行数
  • 聚合函数会将NULL排除在外。但COUNT(*)例外,并不会排除NULL。
  • MAX/MIN函数几乎适用于所有数据类型的列。SUM/AVG函数只适用于数值类型的列。
  • 想要计算值的种类时,可以在COUNT函数的参数中使用DISTINCT。COUNT(DISTINCT <列名>)
  • 在聚合函数的参数中使用DISTINCT,可以删除重复数据。

6. 对表进行分组

6.1 GROUP BY语句

前面的聚合函数都是会整个表的数据进行处理,当你想将数据进行分组汇总时(即:将现有的数据按照某列来汇总统计),GROUP BY可以帮助你:

  1. SELECT <列名1>,<列名2>, <列名3>, ……
  2. FROM <表名>
  3. GROUP BY <列名1>, <列名2>, <列名3>, ……;

看一看是否使用GROUP BY语句的差异:

  1. -- 按照商品种类统计数据行数
  2. SELECT product_type, COUNT(*)
  3. FROM product
  4. GROUP BY product_type;
  5. -- 不含GROUP BY
  6. SELECT product_type, COUNT(*)
  7. FROM product;

按照商品种类对表进行切分
image.png
这样,GROUP BY 子句就像切蛋糕那样将表进行了分组。在 GROUP BY 子句中指定的列称为聚合键或者分组列。

聚合键中包含NULL时
将进货单价(purchase_price)作为聚合键举例:

  1. SELECT purchase_price, COUNT(*)
  2. FROM product
  3. GROUP BY purchase_price;

此时会将NULL作为一组特殊数据进行处理

GROUP BY书写位置
GROUP BY的子句书写顺序有严格要求,不按要求会导致SQL无法正常执行,目前出现过的子句书写顺序为:
1.SELECT → 2.FROM → 3.WHERE → 4.GROUP BY
其中前三项用于筛选数据,GROUP BY对筛选出的数据进行处理。
(注意:书写位置和执行顺序是不一样的!)

在WHERE子句中使用GROUP BY

  1. SELECT purchase_price, COUNT(*)
  2. FROM product
  3. WHERE product_type = '衣服'
  4. GROUP BY purchase_price;


6.2 常见错误

在使用聚合函数及GROUP BY子句时,经常出现的错误有:

  1. 在聚合函数的SELECT子句中,写了聚合健以外的列使用COUNT等聚合函数时,SELECT子句中如果出现列名,只能是GROUP BY子句中指定的列名(也就是聚合键)。only_full_group_by=enable。原因是避免出现意想不到的状况,详情可以查看官网介绍:

    https://dev.mysql.com/doc/refman/8.0/en/sql-mode.html#sqlmode_only_full_group_by

  2. 在GROUP BY子句中使用列的别名 SELECT子句中可以通过AS来指定别名,但在GROUP BY中不能使用别名。因为在DBMS中 ,SELECT子句在GROUP BY子句后执行。

  3. 在WHERE中使用聚合函数 原因是聚合函数的使用前提是结果集已经确定,而WHERE还处于确定结果集的过程中,所以相互矛盾会引发错误。 如果想指定条件,可以在SELECT,HAVING(下面马上会讲)以及ORDER BY子句中使用聚合函数。

7. 为聚合结果指定条件

7.1 用HAVING得到特定分组

将表使用GROUP BY分成多个组后,怎样才能只取出其中两组?
image.png

这里想使用WHERE子句是不可行的,因为,WHERE子句只能指定记录(行)的条件,而不能用来指定组的条件(例如,“数据行数为 2 行”或者“平均值为 500”等)。

这种情况下,可以在GROUP BY后使用HAVING子句来解决。

HAVING的用法类似WHERE,但可以用来指定组的条件。

7.2 HAVING特点

HAVING子句用于对分组进行过滤,可以使用数字、聚合函数和GROUP BY中指定的列名(聚合键)。

  1. -- 数字
  2. SELECT product_type, COUNT(*)
  3. FROM product
  4. GROUP BY product_type
  5. HAVING COUNT(*) = 2;
  6. -- 错误形式(因为product_name不包含在GROUP BY聚合键中)
  7. SELECT product_type, COUNT(*)
  8. FROM product
  9. GROUP BY product_type
  10. HAVING product_name = '圆珠笔';


8. 对查询结果进行排序

8.1 ORDER BY

SQL中的执行结果是随机排列的,当需要按照特定顺序排序时,可使用ORDER BY子句

  1. SELECT <列名1>, <列名2>, <列名3>, ……
  2. FROM <表名>
  3. ORDER BY <排序基准列1>, <排序基准列2>, ……

默认为升序排列,降序排列为DESC

  1. -- 降序排列
  2. SELECT product_id, product_name, sale_price, purchase_price
  3. FROM product
  4. ORDER BY sale_price DESC;
  5. -- 多个排序键
  6. SELECT product_id, product_name, sale_price, purchase_price
  7. FROM product
  8. ORDER BY sale_price, product_id;
  9. -- 当用于排序的列名中含有NULL时,NULL会在开头或末尾进行汇总。
  10. SELECT product_id, product_name, sale_price, purchase_price
  11. FROM product
  12. ORDER BY purchase_price;


8.2 ORDER BY中列名可使用别名

前文讲GROUP BY中提到,GROUP BY 子句中不能使用SELECT 子句中定义的别名,但是在 ORDER BY 子句中却可以使用别名。

为什么在GROUP BY中不可以而在ORDER BY中可以呢?
这是因为SQL在使用 HAVING 子句时 SELECT 语句的执行顺序为:
FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY

其中SELECT的执行顺序在 GROUP BY 子句之后,ORDER BY 子句之前。也就是说,当在ORDER BY中使用别名时,已经知道了SELECT设置的别名存在,但是在GROUP BY中使用别名时还不知道别名的存在,所以不能在ORDER BY中可以使用别名,但是在GROUP BY中不能使用别名


9. 练习题——第二部分

9.1 改错

问题:请指出下述SELECT语句中所有的语法错误。

  1. SELECT product_id, SUMproduct_name
  2. --本SELECT语句中存在错误。
  3. FROM product
  4. GROUP BY product_type
  5. WHERE regist_date > '2009-09-01';

回答:
错误1:SELECT子句里的product_id并没有在GROUP BY子句的聚合键里;
错误2:WHERE 子句放在GROUP BY子句后面是错误的,应该放在其前面才对。

9.2 按要求编写SQL语句

问题:请编写一条SELECT语句,求出销售单价(sale_price 列)合计值大于进货单价(purchase_price 列)合计值1.5倍的商品种类。执行结果如下所示。
image.png
回答:

  1. SELECT product_type, SUM(sale_price), SUM(purchase_price)
  2. FROM product
  3. GROUP BY product_type
  4. HAVING SUM(sale_price) > SUM(purchase_price)*1.5;

9.3 追源溯始

问题:此前我们曾经使用SELECT语句选取出了product(商品)表中的全部记录。当时我们使用了ORDER BY子句来指定排列顺序,但现在已经无法记起当时如何指定的了。请根据下列执行结果,思考ORDE RBY子句的内容。
image.png

回答:首先可以排除product_id、sale_price、purchase_price这三个没有明显的升序和降序的列。
其次,product_name 和product_type如果是考虑第一个字的首字母,也没有类似升降序的排序。
最后只剩下regist_date这列,可以看出除了第一个记录,其他记录都是按降序排序的。
如果要把NULL排在前面,MySQL并没有像Oracle的ORDER BY xx NULL FIRST这种现成的函数。可以用Mysql的IF和ISNULL函数,对数据进行判断是否为NULL,为NULL则返回0,否返回1。再把判断结果的0和1作为分组。这样按默认的降序排列,分组0就排在分组1前面了。

  1. SELECT *
  2. FROM product
  3. ORDER BY IF(ISNULL(regist_date), 0, 1), regist_date DESC;

执行效果截图。
image.png

当然,上面的结果和问题的结果还是稍微有些不一样,原因就在purchase_price这列也是NULL排在前面。所以需要对上面的语句再稍微调整一下即可。

  1. SELECT *
  2. FROM product
  3. ORDER BY IF(ISNULL(regist_date), 0, 1),
  4. regist_date DESC,
  5. IF(ISNULL(purchase_price), 0, 1);

image.png

更新:
其实根据NULL值比任何值小这个特性,还有以下更简单的方法。
因为NULL值比任何数小,所以 负NULL 比 负的任何数都大,这样就可以把NULL排到最前。

  1. SELECT *
  2. FROM product
  3. ORDER BY -regist_date DESC,
  4. -purchase_price;