8. Task05:SQL高级处理 - 图1

5.1 窗口函数

5.1.1 窗口函数概念及基本的使用方法

窗口函数也称为OLAP函数。OLAP 是OnLine AnalyticalProcessing 的简称,意思是对数据库数据进行实时分析处理。

为了便于理解,称之为窗口函数。常规的SELECT语句都是对整张表进行查询,而窗口函数可以让我们有选择的去某一部分数据进行汇总、计算和排序

窗口函数的通用形式:

  1. <窗口函数> OVER ([PARTITION BY <列名>]
  2. ORDER BY <排序用列名>)

[]中的内容可以省略。 窗口函数最关键的是搞明白关键字**PARTITON BY**和`*ORDER BY`的作用。

  • **PARTITON BY**是用来分组,即选择要看哪个窗口,类似于GROUP BY 子句的分组功能,但是PARTITION BY 子句并不具备GROUP BY 子句的汇总功能,并不会改变原始表中记录的行数。
  • **ORDER BY**是用来排序,即决定窗口内,是按那种规则(字段)来排序的。

现在,使用窗口函数,假设某个数据库的表如下所示
image.png
现在执行语句

  1. select product_id,` product_name`,` product_type`,` sale_price`, ` purchase_price`,
  2. rank() over (partition by ` product_type` order by ` sale_price`) as ranking
  3. from Product1

得到如下的执行效果
image.png
先对相同类型的product_type分配到一起,然后按照sale_price的价格由低到高进行排列,然后有1列ranking表示其顺序。

5.2 窗口函数种类

大致来说,窗口函数可以分为两类。

  • SUMMAXMIN等聚合函数用在窗口函数中
  • RANKDENSE_RANK等排序用的专用窗口函数

    5.2.1 专用窗口函数

    🍦**RANK**函数
    计算排序时,如果存在相同位次的记录,则会跳过之后的位次。

例如:有 3 条记录排在第 1 位时:1 位、1 位、1 位、4 位……

🍦**DENSE_RANK**函数
同样是计算排序,即使存在相同位次的记录,也不会跳过之后的位次。

例如:有 3 条记录排在第 1 位时:1 位、1 位、1 位、2 位……

🍦**ROW_NUMBER**函数
赋予唯一的连续位次。

例如:有 3 条记录排在第 1 位时:1 位、2 位、3 位、4 位

使用上述的3个函数进行排序

  1. select product_id,` product_name`,` product_type`,` sale_price`, ` purchase_price`,
  2. rank() over ( order by ` sale_price`) as ranking,
  3. dense_rank() over (order by ` sale_price`) as dense_ranking,
  4. row_number() over (order by ` sale_price`) as row_num
  5. from Product1

排序后如下图所示
image.png

5.2.2 聚合函数在窗口函数上的使用

聚合函数在开窗函数中的使用方法和之前的专用窗口函数一样,只是出来的结果是一个累计的聚合函数值。

运行以下代码:

  1. select product_id,` product_name`,` product_type`,` sale_price`, ` purchase_price`,
  2. sum(` sale_price`) over (order by product_id) as current_sum,
  3. avg(` sale_price`) over (order by product_id) as current_avg
  4. from Product1

image.png

5.3 窗口函数的的应用 - 计算移动平均

在上面提到,聚合函数在窗口函数使用时,计算的是累积到当前行的所有的数据的聚合。 实际上,还可以指定更加详细的汇总范围。该汇总范围成为框架(frame)。

语法

  1. <窗口函数> OVER (ORDER BY <排序用列名>
  2. ROWS n PRECEDING )
  3. <窗口函数> OVER (ORDER BY <排序用列名>
  4. ROWS BETWEEN n PRECEDING AND n FOLLOWING)
  • PRECEDING(“之前”), 将框架指定为 “截止到之前 n 行”,加上自身行
  • FOLLOWING(“之后”), 将框架指定为 “截止到之后 n 行”,加上自身行
  • BETWEEN 1 PRECEDING AND 1 FOLLOWING,将框架指定为 “之前1行” + “之后1行” + “自身”

执行以下代码:

  1. select product_id,` product_name`,` product_type`,` sale_price`, ` purchase_price`,
  2. sum(` sale_price`) over (order by product_id rows 2 preceding) as moving_sum1,
  3. sum(` sale_price`) over (order by product_id rows between 1 preceding and 1 following) as moving_sum2
  4. from Product1

生成结果如下
image.png

5.4 GROUPING运算符

5.4.1 ROLLUP - 计算合计及小计

常规的GROUP BY 只能得到每个分类的小计,有时候还需要计算分类的合计,可以用 ROLLUP关键字。

  1. select ` product_type`,` regist_date`,sum(` sale_price`) as sum_price
  2. from Product1
  3. group by ` product_type`,` regist_date` with rollup

image.png
这里ROLLUP 对product_type, regist_date两列进行合计汇总。结果实际上有三层聚合,如下图 模块3是常规的GROUP BY 的结果,需要注意的是衣服 有个注册日期为空的,这是本来数据就存在日期为空的,不是对衣服类别的合计; 模块2和1是 ROLLUP 带来的合计,模块2是对产品种类的合计,模块1是对全部数据的总计。

ROLLUP 可以对多列进行汇总求小计和合计。

练习题

习题5.1

请说出针对本章中使用的 product(商品)表执行如下 SELECT 语句所能得到的结果。

  1. SELECT product_id
  2. ,product_name
  3. ,sale_price
  4. ,MAX(sale_price) OVER (ORDER BY product_id) AS Current_max_price
  5. FROM product

习题5.2

继续使用product表,计算出按照登记日期(regist_date)升序进行排列的各日期的销售单价(sale_price)的总额。排序是需要将登记日期为NULL 的“运动 T 恤”记录排在第 1 位(也就是将其看作比其他日期都早)

习题5.3

思考题
① 窗口函数不指定PARTITION BY的效果是什么?
② 为什么说窗口函数只能在SELECT子句中使用?实际上,在ORDER BY 子句使用系统并不会报错。**