5.1 窗口函数
5.1.1 窗口函数概念及基本的使用方法
窗口函数也称为OLAP函数。OLAP 是OnLine AnalyticalProcessing 的简称,意思是对数据库数据进行实时分析处理。
为了便于理解,称之为窗口函数。常规的SELECT
语句都是对整张表进行查询,而窗口函数可以让我们有选择的去某一部分数据进行汇总、计算和排序。
窗口函数的通用形式:
<窗口函数> OVER ([PARTITION BY <列名>]
ORDER BY <排序用列名>)
[]中的内容可以省略。 窗口函数最关键的是搞明白关键字**PARTITON BY**
和`*ORDER BY`的作用。
**PARTITON BY**
是用来分组,即选择要看哪个窗口,类似于GROUP BY
子句的分组功能,但是PARTITION BY
子句并不具备GROUP BY
子句的汇总功能,并不会改变原始表中记录的行数。**ORDER BY**
是用来排序,即决定窗口内,是按那种规则(字段)来排序的。
现在,使用窗口函数,假设某个数据库的表如下所示
现在执行语句
select product_id,` product_name`,` product_type`,` sale_price`, ` purchase_price`,
rank() over (partition by ` product_type` order by ` sale_price`) as ranking
from Product1
得到如下的执行效果
先对相同类型的product_type
分配到一起,然后按照sale_price
的价格由低到高进行排列,然后有1列ranking表示其顺序。
5.2 窗口函数种类
大致来说,窗口函数可以分为两类。
- 将
SUM
、MAX
、MIN
等聚合函数用在窗口函数中 RANK
、DENSE_RANK
等排序用的专用窗口函数5.2.1 专用窗口函数
🍦**RANK**
函数
计算排序时,如果存在相同位次的记录,则会跳过之后的位次。
例如:有 3 条记录排在第 1 位时:1 位、1 位、1 位、4 位……
🍦**DENSE_RANK**
函数
同样是计算排序,即使存在相同位次的记录,也不会跳过之后的位次。
例如:有 3 条记录排在第 1 位时:1 位、1 位、1 位、2 位……
🍦**ROW_NUMBER**
函数
赋予唯一的连续位次。
例如:有 3 条记录排在第 1 位时:1 位、2 位、3 位、4 位
使用上述的3个函数进行排序
select product_id,` product_name`,` product_type`,` sale_price`, ` purchase_price`,
rank() over ( order by ` sale_price`) as ranking,
dense_rank() over (order by ` sale_price`) as dense_ranking,
row_number() over (order by ` sale_price`) as row_num
from Product1
5.2.2 聚合函数在窗口函数上的使用
聚合函数在开窗函数中的使用方法和之前的专用窗口函数一样,只是出来的结果是一个累计的聚合函数值。
运行以下代码:
select product_id,` product_name`,` product_type`,` sale_price`, ` purchase_price`,
sum(` sale_price`) over (order by product_id) as current_sum,
avg(` sale_price`) over (order by product_id) as current_avg
from Product1
5.3 窗口函数的的应用 - 计算移动平均
在上面提到,聚合函数在窗口函数使用时,计算的是累积到当前行的所有的数据的聚合。 实际上,还可以指定更加详细的汇总范围。该汇总范围成为框架(frame)。
语法
<窗口函数> OVER (ORDER BY <排序用列名>
ROWS n PRECEDING )
<窗口函数> OVER (ORDER BY <排序用列名>
ROWS BETWEEN n PRECEDING AND n FOLLOWING)
PRECEDING
(“之前”), 将框架指定为 “截止到之前 n 行”,加上自身行FOLLOWING
(“之后”), 将框架指定为 “截止到之后 n 行”,加上自身行BETWEEN 1 PRECEDING AND 1 FOLLOWING
,将框架指定为 “之前1行” + “之后1行” + “自身”
执行以下代码:
select product_id,` product_name`,` product_type`,` sale_price`, ` purchase_price`,
sum(` sale_price`) over (order by product_id rows 2 preceding) as moving_sum1,
sum(` sale_price`) over (order by product_id rows between 1 preceding and 1 following) as moving_sum2
from Product1
5.4 GROUPING运算符
5.4.1 ROLLUP - 计算合计及小计
常规的GROUP BY
只能得到每个分类的小计,有时候还需要计算分类的合计,可以用 ROLLUP
关键字。
select ` product_type`,` regist_date`,sum(` sale_price`) as sum_price
from Product1
group by ` product_type`,` regist_date` with rollup
这里ROLLUP
对product_type, regist_date两列进行合计汇总。结果实际上有三层聚合,如下图 模块3是常规的GROUP BY
的结果,需要注意的是衣服 有个注册日期为空的,这是本来数据就存在日期为空的,不是对衣服类别的合计; 模块2和1是 ROLLUP
带来的合计,模块2是对产品种类的合计,模块1是对全部数据的总计。
练习题
习题5.1
请说出针对本章中使用的 product(商品)表执行如下 SELECT
语句所能得到的结果。
SELECT product_id
,product_name
,sale_price
,MAX(sale_price) OVER (ORDER BY product_id) AS Current_max_price
FROM product
习题5.2
继续使用product表,计算出按照登记日期(regist_date)升序进行排列的各日期的销售单价(sale_price)的总额。排序是需要将登记日期为NULL 的“运动 T 恤”记录排在第 1 位(也就是将其看作比其他日期都早)
习题5.3
思考题
① 窗口函数不指定PARTITION BY
的效果是什么?
② 为什么说窗口函数只能在SELECT
子句中使用?实际上,在ORDER BY
子句使用系统并不会报错。**