image.png

矩阵求导的本质与分子布局、分母布局的本质(矩阵求导——本质篇)

来源:Alexander
https://zhuanlan.zhihu.com/p/263777564

〇. 前言

在一个多月前,针对有同学关于矩阵求导中分子布局、分母布局两者的区别的疑问,我写了如下的这篇答案。
矩阵求导中布局约定,两者布局的意义是什么?70 赞同 · 7 评论回答
虽然这篇答案给出了几个结论,但是写的没有很严谨,并没有说明矩阵求导本质分子布局分母布局本质
所以,在接下来这篇文章中,我将更严谨地说明矩阵求导的本质与分子布局分母布局本质。希望对初学的同学、想理解本质的同学提供一些帮助。
注1:看懂本文只需了解本科阶段高等数学的偏导如何求、本科阶段线性代数的矩阵的定义,无需任何其他知识。
注2:本文若无特殊说明,则约定向量均为列向量,矩阵求导-本质篇 - 图2
注3:本文仅考虑实数,不考虑复数。

一. 函数与标量、向量、矩阵[1]

考虑一个函数
矩阵求导-本质篇 - 图3
针对 矩阵求导-本质篇 - 图4 的类型、 矩阵求导-本质篇 - 图5 的类型,我们可以将这个函数 矩阵求导-本质篇 - 图6 分为不同的种类。
1、 矩阵求导-本质篇 - 图7 是一个标量
我们称 矩阵求导-本质篇 - 图8 是一个实值标量函数。用细体小写字母 矩阵求导-本质篇 - 图9 表示。
1.1 矩阵求导-本质篇 - 图10 是一个标量
我们称 矩阵求导-本质篇 - 图11变元标量。用细体小写字母 矩阵求导-本质篇 - 图12 表示。
例1:
矩阵求导-本质篇 - 图13
1.2 矩阵求导-本质篇 - 图14 是一个向量
我们称 矩阵求导-本质篇 - 图15变元向量。粗体小写字母 矩阵求导-本质篇 - 图16 表示。
例2:矩阵求导-本质篇 - 图17
矩阵求导-本质篇 - 图18
1.3 矩阵求导-本质篇 - 图19 是一个矩阵
我们称 矩阵求导-本质篇 - 图20变元矩阵。粗体大写字母 矩阵求导-本质篇 - 图21 表示。
例3:矩阵求导-本质篇 - 图22
矩阵求导-本质篇 - 图23
2、矩阵求导-本质篇 - 图24 是一个向量
我们称 矩阵求导-本质篇 - 图25 是一个实向量函数 。用粗体小写字母 矩阵求导-本质篇 - 图26 表示。
含义矩阵求导-本质篇 - 图27 是由若干个 矩阵求导-本质篇 - 图28 组成的一个向量
同样地,变元分三种:标量、向量、矩阵。这里的符号仍与上面相同。
2.1 标量变元
例4:
矩阵求导-本质篇 - 图29
2.2 向量变元
例5:矩阵求导-本质篇 - 图30
矩阵求导-本质篇 - 图31
2.3 矩阵变元
例6:矩阵求导-本质篇 - 图32
矩阵求导-本质篇 - 图33
3、矩阵求导-本质篇 - 图34 是一个矩阵
我们称 矩阵求导-本质篇 - 图35 是一个实矩阵函数 。用粗体大写字母 矩阵求导-本质篇 - 图36 表示。
含义矩阵求导-本质篇 - 图37 是由若干个 矩阵求导-本质篇 - 图38 组成的一个矩阵
同样地,变元分三种:标量、向量、矩阵。这里的符号仍与上面相同。
3.1 标量变元
例7:
矩阵求导-本质篇 - 图39
3.2 向量变元
例8:矩阵求导-本质篇 - 图40
矩阵求导-本质篇 - 图41
3.3 矩阵变元
例9:矩阵求导-本质篇 - 图42
矩阵求导-本质篇 - 图43
4、总结
image.png

二. 矩阵求导的本质

我们在高等数学[2]中学过,对于一个多元函数
例10:
矩阵求导-本质篇 - 图45
我们可以将 矩阵求导-本质篇 - 图46矩阵求导-本质篇 - 图47偏导分别求出来,即:
矩阵求导-本质篇 - 图48
矩阵求导也是一样的,本质就是 矩阵求导-本质篇 - 图49 中的每个 矩阵求导-本质篇 - 图50 分别对变元中的每个元素逐个求偏导,只不过写成了向量、矩阵形式而已。
对于 矩阵求导-本质篇 - 图51 ,我们把得出的3个结果写成列向量形式:
矩阵求导-本质篇 - 图52
一个矩阵求导以列向量形式展开的雏形就出现了。
当然我们也可以以行向量形式展开:
矩阵求导-本质篇 - 图53
所以,如果 矩阵求导-本质篇 - 图54 中有 矩阵求导-本质篇 - 图55矩阵求导-本质篇 - 图56 ,变元中有 矩阵求导-本质篇 - 图57 个元素,那么,每个 矩阵求导-本质篇 - 图58 对变元中的每个元素逐个求偏导后,我们就会产生 矩阵求导-本质篇 - 图59 个结果。
这就是矩阵求导的本质。
至于这 矩阵求导-本质篇 - 图60 个结果的布局,是写成行向量,还是写成列向量,还是写成矩阵,就是我们接下来要讨论的事情。

三. 矩阵求导结果的布局

不严谨地说,从直观上看:
分子布局,就是分子是列向量形式,分母是行向量形式,如 矩阵求导-本质篇 - 图61 式。如果这里的 矩阵求导-本质篇 - 图62实向量函数 矩阵求导-本质篇 - 图63 的话,结果就是 矩阵求导-本质篇 - 图64 的矩阵了:
矩阵求导-本质篇 - 图65
分母布局,就是分母是列向量形式,分子是行向量形式,如 矩阵求导-本质篇 - 图66 式。如果这里的 矩阵求导-本质篇 - 图67实向量函数 矩阵求导-本质篇 - 图68 的话,结果就是 矩阵求导-本质篇 - 图69 的矩阵了:
矩阵求导-本质篇 - 图70
直观上理解了之后,我们针对不同类型的 矩阵求导-本质篇 - 图71 ,不同类型的变元,给出严谨的布局说明。(这里不讨论标量变元的实值标量函数 矩阵求导-本质篇 - 图72 ,因为结果就是一个元素嘛~)
1、向量变元的实值标量函数 矩阵求导-本质篇 - 图73 , 矩阵求导-本质篇 - 图74
1.1 行向量偏导形式(又称行偏导向量形式)[3]
矩阵求导-本质篇 - 图75
1.2 梯度向量形式(又称列向量偏导形式、列偏导向量形式)[4]
矩阵求导-本质篇 - 图76
这两种形式互为转置
2、矩阵变元的实值标量函数 矩阵求导-本质篇 - 图77 , 矩阵求导-本质篇 - 图78
先介绍一个符号 矩阵求导-本质篇 - 图79 ,作用是将矩阵 矩阵求导-本质篇 - 图80 按列堆栈来向量化。
解释一下,矩阵求导-本质篇 - 图81就是把矩阵 矩阵求导-本质篇 - 图82 的第 矩阵求导-本质篇 - 图83 列,第 矩阵求导-本质篇 - 图84 列,直到第 矩阵求导-本质篇 - 图85 列取出来,然后按顺序组成一个列向量,即:
矩阵求导-本质篇 - 图86
2.1 行向量偏导形式(又称行偏导向量形式)[3]
即先把矩阵变元 矩阵求导-本质篇 - 图87矩阵求导-本质篇 - 图88 向量化,转换成向量变元,再对该向量变元使用 矩阵求导-本质篇 - 图89 式:
矩阵求导-本质篇 - 图90
2.2 矩阵求导-本质篇 - 图91 矩阵形式[3]
即先把矩阵变元 矩阵求导-本质篇 - 图92 进行转置,再对转置后每个位置的元素逐个求偏导,结果布局和转置布局一样
矩阵求导-本质篇 - 图93
2.3 梯度向量形式(又称列向量偏导形式、列偏导向量形式)[4]
即先把矩阵变元 矩阵求导-本质篇 - 图94矩阵求导-本质篇 - 图95 向量化,转换成向量变元,再对该变元使用 矩阵求导-本质篇 - 图96 式:
矩阵求导-本质篇 - 图97
2.4 梯度矩阵形式[4]
直接对原矩阵变元 矩阵求导-本质篇 - 图98每个位置的元素逐个求偏导,结果布局和原矩阵布局一样
矩阵求导-本质篇 - 图99
2.5 一些发现
2.5.1 转置
矩阵求导-本质篇 - 图100 式与 矩阵求导-本质篇 - 图101互为转置矩阵求导-本质篇 - 图102 式与 矩阵求导-本质篇 - 图103互为转置
2.5.2 相等
矩阵变元 矩阵求导-本质篇 - 图104 本身就是一个列向量 矩阵求导-本质篇 - 图105 时, 矩阵求导-本质篇 - 图106 式、 矩阵求导-本质篇 - 图107 式、 矩阵求导-本质篇 - 图108相等; 矩阵求导-本质篇 - 图109 式、 矩阵求导-本质篇 - 图110 式、 矩阵求导-本质篇 - 图111相等;当然,前三个式子与后三个式子互为转置
这一发现说明,对于向量变元的实值标量函数 矩阵求导-本质篇 - 图112 , 矩阵求导-本质篇 - 图113,结果布局本质上有两种形式,一种是 矩阵求导-本质篇 - 图114 矩阵(已经成行向量了)形式,一种是梯度矩阵(已经成列向量了)形式。两种形式互为转置
3、矩阵变元的实矩阵函数 矩阵求导-本质篇 - 图115 , 矩阵求导-本质篇 - 图116矩阵求导-本质篇 - 图117
3.1 矩阵求导-本质篇 - 图118 矩阵形式[5]
即先把矩阵变元 矩阵求导-本质篇 - 图119矩阵求导-本质篇 - 图120向量化,转换成向量变元:
矩阵求导-本质篇 - 图121
再把实矩阵函数 矩阵求导-本质篇 - 图122矩阵求导-本质篇 - 图123向量化,转换成实向量函数:
矩阵求导-本质篇 - 图124
这样,我们就把一个矩阵变元的实矩阵函数 矩阵求导-本质篇 - 图125 ,转换成了向量变元的实向量函数 矩阵求导-本质篇 - 图126 。接着,对照 矩阵求导-本质篇 - 图127 式写出结果布局为 矩阵求导-本质篇 - 图128 的矩阵:
矩阵求导-本质篇 - 图129
3.2 梯度矩阵形式[6]
即先把矩阵变元 矩阵求导-本质篇 - 图130矩阵求导-本质篇 - 图131向量化,转换成向量变元:
矩阵求导-本质篇 - 图132
再把实矩阵函数 矩阵求导-本质篇 - 图133矩阵求导-本质篇 - 图134向量化,转换成实向量函数:
矩阵求导-本质篇 - 图135
这样,我们就把一个矩阵变元的实矩阵函数 矩阵求导-本质篇 - 图136 ,转换成了向量变元的实向量函数 矩阵求导-本质篇 - 图137 。接着,对照 矩阵求导-本质篇 - 图138 式写出结果布局为 矩阵求导-本质篇 - 图139 的矩阵:
矩阵求导-本质篇 - 图140
3.3 一些发现
3.3.1 转置
矩阵求导-本质篇 - 图141 式与 矩阵求导-本质篇 - 图142互为转置
3.3.2 相等1
实矩阵函数 矩阵求导-本质篇 - 图143 本身是一个实值标量函数 矩阵求导-本质篇 - 图144 时, 矩阵求导-本质篇 - 图145 式、矩阵求导-本质篇 - 图146相等; 矩阵求导-本质篇 - 图147 式、 矩阵求导-本质篇 - 图148相等;当然,前两个式子与后两个式子互为转置
这一发现说明,对于矩阵变元的实值标量函数 矩阵求导-本质篇 - 图149 , 矩阵求导-本质篇 - 图150,结果布局本质上有四种形式,第一种是 矩阵求导-本质篇 - 图151 矩阵(已经成行向量了)形式,第二种是梯度矩阵(已经成列向量了)形式,第三种是 矩阵求导-本质篇 - 图152 矩阵(就是矩阵)形式,第四种是梯度矩阵(就是矩阵)形式。第一种和第二种形式互为转置,第三种和第四种形式互为转置
3.3.3 相等2
矩阵变元 矩阵求导-本质篇 - 图153 本身就是一个列向量 矩阵求导-本质篇 - 图154 时, 同时实矩阵函数 矩阵求导-本质篇 - 图155 本身是一个实值标量函数 矩阵求导-本质篇 - 图156 时, 矩阵求导-本质篇 - 图157 式、 矩阵求导-本质篇 - 图158 式、 矩阵求导-本质篇 - 图159 式、 矩阵求导-本质篇 - 图160相等; 矩阵求导-本质篇 - 图161 式、 矩阵求导-本质篇 - 图162 式、 矩阵求导-本质篇 - 图163 式、 矩阵求导-本质篇 - 图164相等;当然,前四个式子与后四个式子互为转置
这一发现仍说明,对于向量变元的实值标量函数 矩阵求导-本质篇 - 图165 , 矩阵求导-本质篇 - 图166,结果布局本质上有两种形式,一种是 矩阵求导-本质篇 - 图167 矩阵(已经成行向量了)形式,一种是梯度矩阵(已经成列向量了)形式。两种形式互为转置
4、矩阵变元的实向量函数 矩阵求导-本质篇 - 图168向量变元的实向量函数 矩阵求导-本质篇 - 图169向量变元的实矩阵函数 矩阵求导-本质篇 - 图170
这三个都可以看做是矩阵变元的实矩阵函数 矩阵求导-本质篇 - 图171 ,可使用3、进行计算(因为向量就是一种特殊的矩阵)。

四. 分子布局、分母布局的本质

看到这里,相信同学们对矩阵求导结果的布局有了很全面的了解了,无非就是分子的转置、向量化分母的转置、向量化,它们的各种组合而已。
结合上述知识,我们总结:
1、分子布局的本质:分子是标量列向量、矩阵向量化后的列向量;分母是标量、列向量转置后的行向量、矩阵的转置矩阵、矩阵向量化后的列向量转置后的行向量。包含 矩阵求导-本质篇 - 图172 式、 矩阵求导-本质篇 - 图173 式、 矩阵求导-本质篇 - 图174 式、 矩阵求导-本质篇 - 图175 式。
2、分母布局的本质:分子是标量、列向量转置后的行向量、矩阵向量化后的列向量转置后的行向量;分母是标量列向量矩阵自己、矩阵向量化后的列向量。包含 矩阵求导-本质篇 - 图176 式、 矩阵求导-本质篇 - 图177 式、 矩阵求导-本质篇 - 图178 式、 矩阵求导-本质篇 - 图179 式。
思考一下,其实我们可以再简洁一些:谁转置了,就是另一方的布局。分子转置了,就是分母布局;分母转置了,就是分子布局。
最终,我们列一个表格,总结分子布局、分子布局的本质:
image.png

五. 完

本文到这里就结束了,希望对大家有帮助。如果有时间的话,后面我会再发一篇文章,来进行若干常见矩阵求导公式的数学推导。欢迎大家点赞、关注、收藏、转发噢~
image.png
矩阵求导系列其他文章:
对称矩阵的求导,以多元正态分布的极大似然估计为例(矩阵求导——补充篇) - Iterator的文章 - 知乎
矩阵求导公式的数学推导(矩阵求导——进阶篇) - Iterator的文章 - 知乎
矩阵求导公式的数学推导(矩阵求导——基础篇) - Iterator的文章 - 知乎

参考

  1. ^张贤达《矩阵分析与应用(第二版)》P143
  2. ^《高等数学 同济大学第七版 下册》P66
  3. ^abc张贤达《矩阵分析与应用(第二版)》P144
  4. ^abc张贤达《矩阵分析与应用(第二版)》P146
  5. ^张贤达《矩阵分析与应用(第二版)》P145
  6. ^张贤达《矩阵分析与应用(第二版)》P147

编辑于 2020-11-24 10:27