本文是斯坦福大学CS 229机器学习课程的基础材料,原始文件下载

原文作者:Zico Kolter,修改:Chuong Do, Tengyu Ma

翻译:黄海广
备注:请关注github的更新,线性代数和概率论已经更新完毕。

CS229 机器学习课程复习材料-线性代数

线性代数复习和参考

1. 基础概念和符号

线性代数提供了一种紧凑地表示和操作线性方程组的方法。 例如,以下方程组:

1.CS229-LinearAlgebra - 图1

1.CS229-LinearAlgebra - 图2

这是两个方程和两个变量,正如你从高中代数中所知,你可以找到 1.CS229-LinearAlgebra - 图31.CS229-LinearAlgebra - 图4 的唯一解(除非方程以某种方式退化,例如,如果第二个方程只是第一个的倍数,但在上面的情况下,实际上只有一个唯一解)。 在矩阵表示法中,我们可以更紧凑地表达:

1.CS229-LinearAlgebra - 图5

1.CS229-LinearAlgebra - 图6

我们可以看到,这种形式的线性方程有许多优点(比如明显地节省空间)。

1.1 基本符号

我们使用以下符号:

  • 1.CS229-LinearAlgebra - 图7,表示 1.CS229-LinearAlgebra - 图8 为由实数组成具有1.CS229-LinearAlgebra - 图9行和1.CS229-LinearAlgebra - 图10列的矩阵。
  • 1.CS229-LinearAlgebra - 图11,表示具有1.CS229-LinearAlgebra - 图12个元素的向量。 通常,向量1.CS229-LinearAlgebra - 图13将表示列向量: 即,具有1.CS229-LinearAlgebra - 图14行和1.CS229-LinearAlgebra - 图15列的矩阵。 如果我们想要明确地表示行向量: 具有 1.CS229-LinearAlgebra - 图16 行和1.CS229-LinearAlgebra - 图17列的矩阵 - 我们通常写1.CS229-LinearAlgebra - 图18(这里1.CS229-LinearAlgebra - 图191.CS229-LinearAlgebra - 图20的转置)。
  • 1.CS229-LinearAlgebra - 图21表示向量1.CS229-LinearAlgebra - 图22的第1.CS229-LinearAlgebra - 图23个元素

1.CS229-LinearAlgebra - 图24

  • 我们使用符号 1.CS229-LinearAlgebra - 图25(或1.CS229-LinearAlgebra - 图26,1.CS229-LinearAlgebra - 图27等)来表示第 1.CS229-LinearAlgebra - 图28 行和第1.CS229-LinearAlgebra - 图29列中的 1.CS229-LinearAlgebra - 图30 的元素:

1.CS229-LinearAlgebra - 图31

  • 我们用1.CS229-LinearAlgebra - 图32或者1.CS229-LinearAlgebra - 图33表示矩阵1.CS229-LinearAlgebra - 图34的第1.CS229-LinearAlgebra - 图35列:

1.CS229-LinearAlgebra - 图36

  • 我们用1.CS229-LinearAlgebra - 图37或者1.CS229-LinearAlgebra - 图38表示矩阵1.CS229-LinearAlgebra - 图39的第1.CS229-LinearAlgebra - 图40行:

1.CS229-LinearAlgebra - 图41

  • 在许多情况下,将矩阵视为列向量或行向量的集合非常重要且方便。 通常,在向量而不是标量上操作在数学上(和概念上)更清晰。只要明确定义了符号,用于矩阵的列或行的表示方式并没有通用约定。

2.矩阵乘法

两个矩阵相乘,其中 1.CS229-LinearAlgebra - 图42 and 1.CS229-LinearAlgebra - 图43 ,则:

1.CS229-LinearAlgebra - 图44

其中:

1.CS229-LinearAlgebra - 图45

请注意,为了使矩阵乘积存在,1.CS229-LinearAlgebra - 图46中的列数必须等于1.CS229-LinearAlgebra - 图47中的行数。有很多方法可以查看矩阵乘法,我们将从检查一些特殊情况开始。

2.1 向量-向量乘法

给定两个向量1.CS229-LinearAlgebra - 图48,1.CS229-LinearAlgebra - 图49通常称为向量内积或者点积,结果是个实数

1.CS229-LinearAlgebra - 图50

注意:1.CS229-LinearAlgebra - 图51 始终成立。

给定向量 1.CS229-LinearAlgebra - 图52, 1.CS229-LinearAlgebra - 图53 (他们的维度是否相同都没关系),1.CS229-LinearAlgebra - 图54叫做向量外积 , 当 1.CS229-LinearAlgebra - 图55%7Bij%7D%20%3D%20x_iy_j#card=math&code=%28xy%5ET%29%7Bij%7D%20%3D%20x_iy_j&id=NeoMJ) 的时候,它是一个矩阵。

1.CS229-LinearAlgebra - 图56

举一个外积如何使用的一个例子:让1.CS229-LinearAlgebra - 图57表示一个1.CS229-LinearAlgebra - 图58维向量,其元素都等于1,此外,考虑矩阵1.CS229-LinearAlgebra - 图59,其列全部等于某个向量 1.CS229-LinearAlgebra - 图60。 我们可以使用外积紧凑地表示矩阵 1.CS229-LinearAlgebra - 图61:

1.CS229-LinearAlgebra - 图62

2.2 矩阵-向量乘法

给定矩阵 1.CS229-LinearAlgebra - 图63,向量 1.CS229-LinearAlgebra - 图64 , 它们的积是一个向量 1.CS229-LinearAlgebra - 图65。 有几种方法可以查看矩阵向量乘法,我们将依次查看它们中的每一种。

如果我们按行写1.CS229-LinearAlgebra - 图66,那么我们可以表示1.CS229-LinearAlgebra - 图67为:

1.CS229-LinearAlgebra - 图68

换句话说,第1.CS229-LinearAlgebra - 图691.CS229-LinearAlgebra - 图701.CS229-LinearAlgebra - 图71的第1.CS229-LinearAlgebra - 图72行和1.CS229-LinearAlgebra - 图73的内积,即:1.CS229-LinearAlgebra - 图74

同样的, 可以把 1.CS229-LinearAlgebra - 图75 写成列的方式,则公式如下:

1.CS229-LinearAlgebra - 图76

换句话说,1.CS229-LinearAlgebra - 图771.CS229-LinearAlgebra - 图78的列的线性组合,其中线性组合的系数由1.CS229-LinearAlgebra - 图79的元素给出。

到目前为止,我们一直在右侧乘以列向量,但也可以在左侧乘以行向量。 这是写的,1.CS229-LinearAlgebra - 图80 表示1.CS229-LinearAlgebra - 图811.CS229-LinearAlgebra - 图821.CS229-LinearAlgebra - 图83。 和以前一样,我们可以用两种可行的方式表达1.CS229-LinearAlgebra - 图84,这取决于我们是否根据行或列表达1.CS229-LinearAlgebra - 图85.

第一种情况,我们把1.CS229-LinearAlgebra - 图86用列表示:

1.CS229-LinearAlgebra - 图87

这表明1.CS229-LinearAlgebra - 图88的第1.CS229-LinearAlgebra - 图89个元素等于1.CS229-LinearAlgebra - 图901.CS229-LinearAlgebra - 图91的第1.CS229-LinearAlgebra - 图92列的内积。

最后,根据行表示1.CS229-LinearAlgebra - 图93,我们得到了向量-矩阵乘积的最终表示:

1.CS229-LinearAlgebra - 图94

所以我们看到1.CS229-LinearAlgebra - 图951.CS229-LinearAlgebra - 图96的行的线性组合,其中线性组合的系数由1.CS229-LinearAlgebra - 图97的元素给出。

2.3 矩阵-矩阵乘法

有了这些知识,我们现在可以看看四种不同的(形式不同,但结果是相同的)矩阵-矩阵乘法:也就是本节开头所定义的1.CS229-LinearAlgebra - 图98的乘法。

首先,我们可以将矩阵 - 矩阵乘法视为一组向量-向量乘积。 从定义中可以得出:最明显的观点是$C 1.CS229-LinearAlgebra - 图99( i,j )1.CS229-LinearAlgebra - 图100A1.CS229-LinearAlgebra - 图101i1.CS229-LinearAlgebra - 图102B1.CS229-LinearAlgebra - 图103j$列的内积。如下面的公式所示:

1.CS229-LinearAlgebra - 图104

1.CS229-LinearAlgebra - 图105公式如下:

1.CS229-LinearAlgebra - 图106

换句话说,1.CS229-LinearAlgebra - 图107等于所有的1.CS229-LinearAlgebra - 图108的第1.CS229-LinearAlgebra - 图109列和1.CS229-LinearAlgebra - 图1101.CS229-LinearAlgebra - 图111行的外积的和。因此,在这种情况下, 1.CS229-LinearAlgebra - 图112的维度一致。

其次,我们还可以将矩阵 - 矩阵乘法视为一组矩阵向量积。如果我们把1.CS229-LinearAlgebra - 图113用列表示,我们可以将1.CS229-LinearAlgebra - 图114的列视为1.CS229-LinearAlgebra - 图1151.CS229-LinearAlgebra - 图116的列的矩阵向量积。公式如下:

1.CS229-LinearAlgebra - 图117

这里1.CS229-LinearAlgebra - 图118的第1.CS229-LinearAlgebra - 图119列由矩阵向量乘积给出,右边的向量为1.CS229-LinearAlgebra - 图120。 这些矩阵向量乘积可以使用前一小节中给出的两个观点来解释。
最后,我们有类似的观点,我们用行表示1.CS229-LinearAlgebra - 图1211.CS229-LinearAlgebra - 图122的行作为1.CS229-LinearAlgebra - 图1231.CS229-LinearAlgebra - 图124行之间的矩阵向量积。公式如下:

1.CS229-LinearAlgebra - 图125

这里第1.CS229-LinearAlgebra - 图126行的1.CS229-LinearAlgebra - 图127由左边的向量的矩阵向量乘积给出:1.CS229-LinearAlgebra - 图128

将矩阵乘法剖析到如此大的程度似乎有点过分,特别是当所有这些观点都紧跟在我们在本节开头给出的初始定义(在一行数学中)之后。

这些不同方法的直接优势在于它们允许您在向量的级别/单位而不是标量上进行操作。 为了完全理解线性代数而不会迷失在复杂的索引操作中,关键是要用尽可能多的概念进行操作。

实际上所有的线性代数都处理某种矩阵乘法,花一些时间对这里提出的观点进行直观的理解是非常必要的。

除此之外,了解一些更高级别的矩阵乘法的基本属性是很有必要的:

  • 矩阵乘法结合律: 1.CS229-LinearAlgebra - 图129C%20%3D%20A(BC)#card=math&code=%28AB%29C%20%3D%20A%28BC%29&id=s8Lhx)
  • 矩阵乘法分配律: 1.CS229-LinearAlgebra - 图130%20%3D%20AB%20%2B%20AC#card=math&code=A%28B%20%2B%20C%29%20%3D%20AB%20%2B%20AC&id=tBYI9)
  • 矩阵乘法通常不是可交换的; 也就是说,通常1.CS229-LinearAlgebra - 图131。 (例如,假设1.CS229-LinearAlgebra - 图132甚至不存在!)

如果您不熟悉这些属性,请花点时间自己验证它们。 例如,为了检查矩阵乘法的相关性,1.CS229-LinearAlgebra - 图133 我们可以使用矩阵乘法的定义直接验证这一点:

1.CS229-LinearAlgebra - 图134%20C)%7Bi%20j%7D%20%26%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D(A%20B)%7Bi%20k%7D%20C%7Bk%20j%7D%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D%5Cleft(%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%5Cright)%20C%7Bk%20j%7D%20%5C%5C%20%26%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D%5Cleft(%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright)%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%5Cleft(%5Csum%7Bk%3D1%7D%5E%7Bp%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright)%20%5C%5C%20%26%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%5Cleft(%5Csum%7Bk%3D1%7D%5E%7Bp%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright)%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D(B%20C)%7Bl%20j%7D%3D(A(B%20C))%7Bi%20j%7D%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%28%28A%20B%29%20C%29%7Bi%20j%7D%20%26%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D%28A%20B%29%7Bi%20k%7D%20C%7Bk%20j%7D%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D%5Cleft%28%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%5Cright%29%20C%7Bk%20j%7D%20%5C%5C%20%26%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D%5Cleft%28%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright%29%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%5Cleft%28%5Csum%7Bk%3D1%7D%5E%7Bp%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright%29%20%5C%5C%20%26%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%5Cleft%28%5Csum%7Bk%3D1%7D%5E%7Bp%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright%29%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%28B%20C%29%7Bl%20j%7D%3D%28A%28B%20C%29%29%7Bi%20j%7D%20%5Cend%7Baligned%7D%0A&id=dyHoh)

3 运算和属性

在本节中,我们介绍矩阵和向量的几种运算和属性。 希望能够为您复习大量此类内容,这些笔记可以作为这些主题的参考。

3.1 单位矩阵和对角矩阵

单位矩阵,1.CS229-LinearAlgebra - 图135,它是一个方阵,对角线的元素是1,其余元素都是0:

1.CS229-LinearAlgebra - 图136

对于所有1.CS229-LinearAlgebra - 图137,有:

1.CS229-LinearAlgebra - 图138

注意,在某种意义上,单位矩阵的表示法是不明确的,因为它没有指定1.CS229-LinearAlgebra - 图139的维数。通常,1.CS229-LinearAlgebra - 图140的维数是从上下文推断出来的,以便使矩阵乘法成为可能。 例如,在上面的等式中,1.CS229-LinearAlgebra - 图141中的1.CS229-LinearAlgebra - 图1421.CS229-LinearAlgebra - 图143矩阵,而1.CS229-LinearAlgebra - 图144中的1.CS229-LinearAlgebra - 图1451.CS229-LinearAlgebra - 图146矩阵。

对角矩阵是一种这样的矩阵:对角线之外的元素全为0。对角阵通常表示为:1.CS229-LinearAlgebra - 图147#card=math&code=D%3D%20diag%28d_1%2C%20d_2%2C%20.%20.%20.%20%2C%20d_n%29&id=GwO2D),其中:

1.CS229-LinearAlgebra - 图148

很明显:单位矩阵1.CS229-LinearAlgebra - 图149

3.2 转置

矩阵的转置是指翻转矩阵的行和列。

给定一个矩阵:

1.CS229-LinearAlgebra - 图150, 它的转置为1.CS229-LinearAlgebra - 图151的矩阵1.CS229-LinearAlgebra - 图152 ,其中的元素为:

1.CS229-LinearAlgebra - 图153%7Bij%7D%20%3D%20A%7Bji%7D%0A#card=math&code=%28A%5ET%29%7Bij%7D%20%3D%20A%7Bji%7D%0A&id=guC0P)

事实上,我们在描述行向量时已经使用了转置,因为列向量的转置自然是行向量。

转置的以下属性很容易验证:

  • 1.CS229-LinearAlgebra - 图154%5ET%20%3D%20A#card=math&code=%28A%5ET%20%29%5ET%20%3D%20A&id=KAW5J)
  • 1.CS229-LinearAlgebra - 图155
  • 1.CS229-LinearAlgebra - 图156%5ET%20%3D%20A%5ET%20%2B%20B%5ET#card=math&code=%28A%20%2B%20B%29%5ET%20%3D%20A%5ET%20%2B%20B%5ET&id=s2wkk)

3.3 对称矩阵

如果1.CS229-LinearAlgebra - 图157,则矩阵1.CS229-LinearAlgebra - 图158是对称矩阵。 1.CS229-LinearAlgebra - 图159所以:

1.CS229-LinearAlgebra - 图160%2B%5Cfrac%7B1%7D%7B2%7D(A-A%5ET)%0A#card=math&code=A%3D%5Cfrac%7B1%7D%7B2%7D%28A%2BA%5ET%29%2B%5Cfrac%7B1%7D%7B2%7D%28A-A%5ET%29%0A&id=ioB8W)

上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中用到很多,它们有很多很好的属性,我们很快就会看到它们。
通常将大小为1.CS229-LinearAlgebra - 图161的所有对称矩阵的集合表示为1.CS229-LinearAlgebra - 图162,因此1.CS229-LinearAlgebra - 图163意味着1.CS229-LinearAlgebra - 图164是对称的1.CS229-LinearAlgebra - 图165矩阵;

3.4 矩阵的迹

方矩阵1.CS229-LinearAlgebra - 图166的迹,表示为1.CS229-LinearAlgebra - 图167#card=math&code=%5Coperatorname%7Btr%7D%20%28A%29&id=pvaj7)(或者只是1.CS229-LinearAlgebra - 图168,如果括号显然是隐含的),是矩阵中对角元素的总和:

1.CS229-LinearAlgebra - 图169

CS229讲义中所述,迹具有以下属性(如下所示):

  • 对于矩阵1.CS229-LinearAlgebra - 图170,则:1.CS229-LinearAlgebra - 图171
  • 对于矩阵1.CS229-LinearAlgebra - 图172,则:1.CS229-LinearAlgebra - 图173%20%3D%20%5Coperatorname%7Btr%7DA%20%2B%20%5Coperatorname%7Btr%7DB#card=math&code=%5Coperatorname%7Btr%7D%28A%20%2B%20B%29%20%3D%20%5Coperatorname%7Btr%7DA%20%2B%20%5Coperatorname%7Btr%7DB&id=kcdwp)
  • 对于矩阵1.CS229-LinearAlgebra - 图1741.CS229-LinearAlgebra - 图175.
  • 对于矩阵 1.CS229-LinearAlgebra - 图176, 1.CS229-LinearAlgebra - 图1771.CS229-LinearAlgebra - 图178 为方阵, 则:1.CS229-LinearAlgebra - 图179
  • 对于矩阵 1.CS229-LinearAlgebra - 图180, 1.CS229-LinearAlgebra - 图181, 1.CS229-LinearAlgebra - 图182, 1.CS229-LinearAlgebra - 图183为方阵, 则:1.CS229-LinearAlgebra - 图184, 同理,更多矩阵的积也是有这个性质。

作为如何证明这些属性的示例,我们将考虑上面给出的第四个属性。 假设1.CS229-LinearAlgebra - 图1851.CS229-LinearAlgebra - 图186(因此1.CS229-LinearAlgebra - 图187是方阵)。 观察到1.CS229-LinearAlgebra - 图188也是一个方阵,因此对它们进行迹的运算是有意义的。 要证明1.CS229-LinearAlgebra - 图189,请注意:

1.CS229-LinearAlgebra - 图190%7Bi%20i%7D%3D%5Csum%7Bi%3D1%7D%5E%7Bm%7D%5Cleft(%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20B%7Bj%20i%7D%5Cright)%20%5C%5C%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20B%7Bj%20i%7D%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20B%7Bj%20i%7D%20A%7Bi%20j%7D%20%5C%5C%20%26%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%5Cleft(%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20B%7Bj%20i%7D%20A%7Bi%20j%7D%5Cright)%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D(B%20A)%7Bj%20j%7D%3D%5Coperatorname%7Btr%7D%20B%20A%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%20%5Coperatorname%7Btr%7D%20A%20B%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bm%7D%28A%20B%29%7Bi%20i%7D%3D%5Csum%7Bi%3D1%7D%5E%7Bm%7D%5Cleft%28%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20B%7Bj%20i%7D%5Cright%29%20%5C%5C%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20B%7Bj%20i%7D%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20B%7Bj%20i%7D%20A%7Bi%20j%7D%20%5C%5C%20%26%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%5Cleft%28%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20B%7Bj%20i%7D%20A%7Bi%20j%7D%5Cright%29%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%28B%20A%29_%7Bj%20j%7D%3D%5Coperatorname%7Btr%7D%20B%20A%20%5Cend%7Baligned%7D%0A&id=iI7Yi)

这里,第一个和最后两个等式使用迹运算符和矩阵乘法的定义,重点在第四个等式,使用标量乘法的可交换性来反转每个乘积中的项的顺序,以及标量加法的可交换性和相关性,以便重新排列求和的顺序。

3.5 范数

向量的范数1.CS229-LinearAlgebra - 图191是非正式度量的向量的“长度” 。 例如,我们有常用的欧几里德或1.CS229-LinearAlgebra - 图192范数,

1.CS229-LinearAlgebra - 图193

注意:1.CS229-LinearAlgebra - 图194

更正式地,范数是满足4个属性的函数(1.CS229-LinearAlgebra - 图195):

  1. 对于所有的 1.CS229-LinearAlgebra - 图196, $f(x) \geq 0 $(非负).
  2. 当且仅当1.CS229-LinearAlgebra - 图197 时,1.CS229-LinearAlgebra - 图198%20%3D%200#card=math&code=f%28x%29%20%3D%200&id=OvLPa) (明确性).
  3. 对于所有1.CS229-LinearAlgebra - 图199,1.CS229-LinearAlgebra - 图200,则 1.CS229-LinearAlgebra - 图201%20%3D%20%5Cleft%7C%20t%20%5Cright%7Cf(x)#card=math&code=f%28tx%29%20%3D%20%5Cleft%7C%20t%20%5Cright%7Cf%28x%29&id=eSjLz) (正齐次性).
  4. 对于所有 1.CS229-LinearAlgebra - 图202, 1.CS229-LinearAlgebra - 图203%20%5Cleq%20f(x)%20%2B%20f(y)#card=math&code=f%28x%20%2B%20y%29%20%5Cleq%20f%28x%29%20%2B%20f%28y%29&id=qb3ar) (三角不等式)

其他范数的例子是1.CS229-LinearAlgebra - 图204范数:

1.CS229-LinearAlgebra - 图205

1.CS229-LinearAlgebra - 图206范数:

1.CS229-LinearAlgebra - 图207

事实上,到目前为止所提出的所有三个范数都是1.CS229-LinearAlgebra - 图208范数族的例子,它们由实数1.CS229-LinearAlgebra - 图209参数化,并定义为:

1.CS229-LinearAlgebra - 图210%5E%7B1%20%2F%20p%7D%0A#card=math&code=%5C%7Cx%5C%7C%7Bp%7D%3D%5Cleft%28%5Csum%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%7Cx_%7Bi%7D%5Cright%7C%5E%7Bp%7D%5Cright%29%5E%7B1%20%2F%20p%7D%0A&id=Up4qF)

也可以为矩阵定义范数,例如Frobenius范数:

1.CS229-LinearAlgebra - 图211%7D%0A#card=math&code=%5C%7CA%5C%7C%7BF%7D%3D%5Csqrt%7B%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%5E%7B2%7D%7D%3D%5Csqrt%7B%5Coperatorname%7Btr%7D%5Cleft%28A%5E%7BT%7D%20A%5Cright%29%7D%0A&id=iDnjA)

许多其他更多的范数,但它们超出了这个复习材料的范围。

3.6 线性相关性和秩

一组向量1.CS229-LinearAlgebra - 图212, 如果没有向量可以表示为其余向量的线性组合,则称称该向量是线性无相关的。 相反,如果属于该组的一个向量可以表示为其余向量的线性组合,则称该向量是线性相关的。 也就是说,如果:

1.CS229-LinearAlgebra - 图213

对于某些标量值1.CS229-LinearAlgebra - 图214,要么向量1.CS229-LinearAlgebra - 图215是线性相关的; 否则,向量是线性无关的。 例如,向量:

1.CS229-LinearAlgebra - 图216

是线性相关的,因为:1.CS229-LinearAlgebra - 图217

矩阵1.CS229-LinearAlgebra - 图218列秩是构成线性无关集合的1.CS229-LinearAlgebra - 图219的最大列子集的大小。 由于术语的多样性,这通常简称为1.CS229-LinearAlgebra - 图220的线性无关列的数量。同样,行秩是构成线性无关集合的1.CS229-LinearAlgebra - 图221的最大行数。 对于任何矩阵1.CS229-LinearAlgebra - 图222,事实证明1.CS229-LinearAlgebra - 图223的列秩等于1.CS229-LinearAlgebra - 图224的行秩(尽管我们不会证明这一点),因此两个量统称为1.CS229-LinearAlgebra - 图225,用 1.CS229-LinearAlgebra - 图226#card=math&code=%5Ctext%7Brank%7D%28A%29&id=FFGXM)表示。 以下是秩的一些基本属性:

  • 对于 1.CS229-LinearAlgebra - 图2271.CS229-LinearAlgebra - 图228%20%5Cleq%20min(m%2C%20n)#card=math&code=%5Ctext%7Brank%7D%28A%29%20%5Cleq%20min%28m%2C%20n%29&id=ynfrM),如果1.CS229-LinearAlgebra - 图229,则: 1.CS229-LinearAlgebra - 图230 被称作满秩
  • 对于 1.CS229-LinearAlgebra - 图2311.CS229-LinearAlgebra - 图232%20%3D%20%5Ctext%7Brank%7D(A%5ET)#card=math&code=%5Ctext%7Brank%7D%28A%29%20%3D%20%5Ctext%7Brank%7D%28A%5ET%29&id=beXq6)
  • 对于 1.CS229-LinearAlgebra - 图233,1.CS229-LinearAlgebra - 图234 ,1.CS229-LinearAlgebra - 图235%20%5Cleq%20%5Ctext%7Bmin%7D%20(%20%5Ctext%7Brank%7D(A)%2C%20%5Ctext%7Brank%7D(B))#card=math&code=%5Ctext%7Brank%7D%28AB%29%20%5Cleq%20%5Ctext%7Bmin%7D%20%28%20%5Ctext%7Brank%7D%28A%29%2C%20%5Ctext%7Brank%7D%28B%29%29&id=tG9tj)
  • 对于 1.CS229-LinearAlgebra - 图2361.CS229-LinearAlgebra - 图237%20%5Cleq%20%5Ctext%7Brank%7D(A)%20%2B%20%5Ctext%7Brank%7D(B)#card=math&code=%5Ctext%7Brank%7D%28A%20%2B%20B%29%20%5Cleq%20%5Ctext%7Brank%7D%28A%29%20%2B%20%5Ctext%7Brank%7D%28B%29&id=Du6Ur)

3.7 方阵的逆

方阵1.CS229-LinearAlgebra - 图238的倒数表示为1.CS229-LinearAlgebra - 图239,并且是这样的独特矩阵:

1.CS229-LinearAlgebra - 图240

请注意,并非所有矩阵都具有逆。 例如,非方形矩阵根据定义没有逆。 然而,对于一些方形矩阵1.CS229-LinearAlgebra - 图241,可能仍然存在1.CS229-LinearAlgebra - 图242可能不存在的情况。 特别是,如果1.CS229-LinearAlgebra - 图243存在,我们说1.CS229-LinearAlgebra - 图244可逆的或非奇异的,否则就是不可逆奇异的。
为了使方阵A具有逆1.CS229-LinearAlgebra - 图245,则1.CS229-LinearAlgebra - 图246必须是满秩。 我们很快就会发现,除了满秩之外,还有许多其它的充分必要条件。
以下是逆的属性; 假设1.CS229-LinearAlgebra - 图247,而且是非奇异的:

  • 1.CS229-LinearAlgebra - 图248%5E%7B-1%7D%20%3D%20A#card=math&code=%28A%5E%7B-1%7D%29%5E%7B-1%7D%20%3D%20A&id=coAg7)
  • 1.CS229-LinearAlgebra - 图249%5E%7B-1%7D%20%3D%20B%5E%7B-1%7DA%5E%7B-1%7D#card=math&code=%28AB%29%5E%7B-1%7D%20%3D%20B%5E%7B-1%7DA%5E%7B-1%7D&id=ujQRK)
  • 1.CS229-LinearAlgebra - 图250

3.8 正交阵

如果 1.CS229-LinearAlgebra - 图251,则两个向量1.CS229-LinearAlgebra - 图252正交的。如果1.CS229-LinearAlgebra - 图253,则向量1.CS229-LinearAlgebra - 图254 被归一化。如果一个方阵1.CS229-LinearAlgebra - 图255的所有列彼此正交并被归一化(这些列然后被称为正交),则方阵1.CS229-LinearAlgebra - 图256是正交阵(注意在讨论向量时的意义不一样)。

它可以从正交性和正态性的定义中得出:

1.CS229-LinearAlgebra - 图257

换句话说,正交矩阵的逆是其转置。 注意,如果1.CS229-LinearAlgebra - 图258不是方阵 :即,1.CS229-LinearAlgebra - 图2591.CS229-LinearAlgebra - 图260 ,但其列仍然是正交的,则1.CS229-LinearAlgebra - 图261,但是1.CS229-LinearAlgebra - 图262。我们通常只使用术语”正交”来描述先前的情况 ,其中1.CS229-LinearAlgebra - 图263是方阵。
正交矩阵的另一个好的特性是在具有正交矩阵的向量上操作不会改变其欧几里德范数,即:

1.CS229-LinearAlgebra - 图264

对于任何 1.CS229-LinearAlgebra - 图265 , 1.CS229-LinearAlgebra - 图266是正交的。

3.9 矩阵的值域和零空间

一组向量1.CS229-LinearAlgebra - 图267是可以表示为1.CS229-LinearAlgebra - 图268的线性组合的所有向量的集合。 即:

1.CS229-LinearAlgebra - 图269%3D%5Cleft%5C%7Bv%20%3A%20v%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Calpha%7Bi%7D%20x%7Bi%7D%2C%20%5Cquad%20%5Calpha%7Bi%7D%20%5Cin%20%5Cmathbb%7BR%7D%5Cright%5C%7D%0A#card=math&code=%5Coperatorname%7Bspan%7D%5Cleft%28%5Cleft%5C%7Bx%7B1%7D%2C%20%5Cldots%20x%7Bn%7D%5Cright%5C%7D%5Cright%29%3D%5Cleft%5C%7Bv%20%3A%20v%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Calpha%7Bi%7D%20x%7Bi%7D%2C%20%5Cquad%20%5Calpha%7Bi%7D%20%5Cin%20%5Cmathbb%7BR%7D%5Cright%5C%7D%0A&id=wDTSG)

可以证明,如果1.CS229-LinearAlgebra - 图270是一组1.CS229-LinearAlgebra - 图271个线性无关的向量,其中每个1.CS229-LinearAlgebra - 图272,则1.CS229-LinearAlgebra - 图273%3D%5Cmathbb%7BR%7D%5E%7Bn%7D#card=math&code=%5Ctext%7Bspan%7D%28%5C%7Bx%7B1%7D%2C%20%5Cldots%20x%7Bn%7D%5C%7D%29%3D%5Cmathbb%7BR%7D%5E%7Bn%7D&id=wk6FM)。 换句话说,任何向量1.CS229-LinearAlgebra - 图274都可以写成1.CS229-LinearAlgebra - 图2751.CS229-LinearAlgebra - 图276的线性组合。

向量1.CS229-LinearAlgebra - 图277投影到1.CS229-LinearAlgebra - 图278(这里我们假设1.CS229-LinearAlgebra - 图279)得到向量1.CS229-LinearAlgebra - 图280#card=math&code=v%20%5Cin%20%5Coperatorname%7Bspan%7D%28%5C%7Bx%7B1%7D%2C%20%5Cldots%2C%20x%7Bn%7D%5C%7D%29&id=vO090),由欧几里德范数1.CS229-LinearAlgebra - 图281可以得知,这样1.CS229-LinearAlgebra - 图282尽可能接近1.CS229-LinearAlgebra - 图283

我们将投影表示为1.CS229-LinearAlgebra - 图284#card=math&code=%5Coperatorname%7BProj%7D%5Cleft%28y%20%3B%5Cleft%5C%7Bx%7B1%7D%2C%20%5Cldots%20x%7Bn%7D%5Cright%5C%7D%5Cright%29&id=zKjCc),并且可以将其正式定义为:

1.CS229-LinearAlgebra - 图285%3D%5Coperatorname%7Bargmin%7D%7Bv%20%5Cin%20%5Coperatorname%7Bspan%7D%5Cleft(%5Cleft%5C%7Bx%7B1%7D%2C%20%5Cldots%2C%20x%7Bn%7D%5Cright%5C%7D%5Cright)%7D%5C%7Cy-v%5C%7C%7B2%7D%0A#card=math&code=%5Coperatorname%7BProj%7D%5Cleft%28y%20%3B%5Cleft%5C%7Bx%7B1%7D%2C%20%5Cldots%20x%7Bn%7D%5Cright%5C%7D%5Cright%29%3D%5Coperatorname%7Bargmin%7D%7Bv%20%5Cin%20%5Coperatorname%7Bspan%7D%5Cleft%28%5Cleft%5C%7Bx%7B1%7D%2C%20%5Cldots%2C%20x%7Bn%7D%5Cright%5C%7D%5Cright%29%7D%5C%7Cy-v%5C%7C%7B2%7D%0A&id=crIf2)

矩阵1.CS229-LinearAlgebra - 图286的值域(有时也称为列空间),表示为1.CS229-LinearAlgebra - 图287#card=math&code=%5Cmathcal%7BR%7D%28A%29&id=WsS4R),是1.CS229-LinearAlgebra - 图288列的跨度。换句话说,

1.CS229-LinearAlgebra - 图289%3D%5Cleft%5C%7Bv%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%7D%20%3A%20v%3DA%20x%2C%20x%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%5Cright%5C%7D%0A#card=math&code=%5Cmathcal%7BR%7D%28A%29%3D%5Cleft%5C%7Bv%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%7D%20%3A%20v%3DA%20x%2C%20x%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%5Cright%5C%7D%0A&id=jukuy)

做一些技术性的假设(即1.CS229-LinearAlgebra - 图290是满秩且1.CS229-LinearAlgebra - 图291),向量1.CS229-LinearAlgebra - 图2921.CS229-LinearAlgebra - 图293的范围的投影由下式给出:

1.CS229-LinearAlgebra - 图294%3D%5Coperatorname%7Bargmin%7D%7Bv%20%5Cin%20%5Cmathcal%7BR%7D(A)%7D%5C%7Cv-y%5C%7C%7B2%7D%3DA%5Cleft(A%5E%7BT%7D%20A%5Cright)%5E%7B-1%7D%20A%5E%7BT%7D%20y%0A#card=math&code=%5Coperatorname%7BProj%7D%28y%20%3B%20A%29%3D%5Coperatorname%7Bargmin%7D%7Bv%20%5Cin%20%5Cmathcal%7BR%7D%28A%29%7D%5C%7Cv-y%5C%7C%7B2%7D%3DA%5Cleft%28A%5E%7BT%7D%20A%5Cright%29%5E%7B-1%7D%20A%5E%7BT%7D%20y%0A&id=kqYli)

这个最后的方程应该看起来非常熟悉,因为它几乎与我们在课程中(我们将很快再次得出)得到的公式:用于参数的最小二乘估计一样。 看一下投影的定义,显而易见,这实际上是我们在最小二乘问题中最小化的目标(除了范数的平方这里有点不一样,这不会影响找到最优解),所以这些问题自然是非常相关的。

1.CS229-LinearAlgebra - 图295只包含一列时,1.CS229-LinearAlgebra - 图296,这给出了向量投影到一条线上的特殊情况:

1.CS229-LinearAlgebra - 图297%3D%5Cfrac%7Ba%20a%5E%7BT%7D%7D%7Ba%5E%7BT%7D%20a%7D%20y%0A#card=math&code=%5Coperatorname%7BProj%7D%28y%20%3B%20a%29%3D%5Cfrac%7Ba%20a%5E%7BT%7D%7D%7Ba%5E%7BT%7D%20a%7D%20y%0A&id=Mt5vR)

一个矩阵1.CS229-LinearAlgebra - 图298的零空间 1.CS229-LinearAlgebra - 图299#card=math&code=%5Cmathcal%7BN%7D%28A%29&id=pcB16) 是所有乘以1.CS229-LinearAlgebra - 图300时等于0向量的集合,即:

1.CS229-LinearAlgebra - 图301%3D%5Cleft%5C%7Bx%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%20%3A%20A%20x%3D0%5Cright%5C%7D%0A#card=math&code=%5Cmathcal%7BN%7D%28A%29%3D%5Cleft%5C%7Bx%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%20%3A%20A%20x%3D0%5Cright%5C%7D%0A&id=jnQQT)

注意,1.CS229-LinearAlgebra - 图302#card=math&code=%5Cmathcal%7BR%7D%28A%29&id=zRp4T)中的向量的大小为1.CS229-LinearAlgebra - 图303,而 1.CS229-LinearAlgebra - 图304#card=math&code=%5Cmathcal%7BN%7D%28A%29&id=za9Sj) 中的向量的大小为1.CS229-LinearAlgebra - 图305,因此1.CS229-LinearAlgebra - 图306#card=math&code=%5Cmathcal%7BR%7D%28A%5ET%29&id=iDjOO)和 1.CS229-LinearAlgebra - 图307#card=math&code=%5Cmathcal%7BN%7D%28A%29&id=RlDjS) 中的向量的大小均为1.CS229-LinearAlgebra - 图308。 事实上,还有很多例子。 证明:

1.CS229-LinearAlgebra - 图309%2C%20v%20%5Cin%20%5Cmathcal%7BN%7D(A)%5Cright%5C%7D%3D%5Cmathbb%7BR%7D%5E%7Bn%7D%20%5Ctext%20%7B%20and%20%7D%20%5Cmathcal%7BR%7D%5Cleft(A%5E%7BT%7D%5Cright)%20%5Ccap%20%5Cmathcal%7BN%7D(A)%3D%5C%7B%5Cmathbf%7B0%7D%5C%7D%0A#card=math&code=%5Cleft%5C%7Bw%20%3A%20w%3Du%2Bv%2C%20u%20%5Cin%20%5Cmathcal%7BR%7D%5Cleft%28A%5E%7BT%7D%5Cright%29%2C%20v%20%5Cin%20%5Cmathcal%7BN%7D%28A%29%5Cright%5C%7D%3D%5Cmathbb%7BR%7D%5E%7Bn%7D%20%5Ctext%20%7B%20and%20%7D%20%5Cmathcal%7BR%7D%5Cleft%28A%5E%7BT%7D%5Cright%29%20%5Ccap%20%5Cmathcal%7BN%7D%28A%29%3D%5C%7B%5Cmathbf%7B0%7D%5C%7D%0A&id=RAHUD)

换句话说,1.CS229-LinearAlgebra - 图310#card=math&code=%5Cmathcal%7BR%7D%28A%5ET%29&id=E6EZs)和 1.CS229-LinearAlgebra - 图311#card=math&code=%5Cmathcal%7BN%7D%28A%29&id=JAT8v) 是不相交的子集,它们一起跨越1.CS229-LinearAlgebra - 图312的整个空间。 这种类型的集合称为正交补,我们用1.CS229-LinearAlgebra - 图313%3D%20%5Cmathcal%7BN%7D(A)%5E%7B%5Cperp%7D#card=math&code=%5Cmathcal%7BR%7D%28A%5ET%29%3D%20%5Cmathcal%7BN%7D%28A%29%5E%7B%5Cperp%7D&id=mRCqT)表示。

3.10 行列式

一个方阵1.CS229-LinearAlgebra - 图314的行列式是函数1.CS229-LinearAlgebra - 图3151.CS229-LinearAlgebra - 图316,并且表示为1.CS229-LinearAlgebra - 图317。 或者1.CS229-LinearAlgebra - 图318(有点像迹运算符,我们通常省略括号)。 从代数的角度来说,我们可以写出一个关于1.CS229-LinearAlgebra - 图319行列式的显式公式。 因此,我们首先提供行列式的几何解释,然后探讨它的一些特定的代数性质。

给定一个矩阵:

1.CS229-LinearAlgebra - 图320

考虑通过采用1.CS229-LinearAlgebra - 图321行向量1.CS229-LinearAlgebra - 图322的所有可能线性组合形成的点1.CS229-LinearAlgebra - 图323的集合,其中线性组合的系数都在0和1之间; 也就是说,集合1.CS229-LinearAlgebra - 图3241.CS229-LinearAlgebra - 图325#card=math&code=%5Ctext%7Bspan%7D%28%5C%7Ba%7B1%7D%2C%20%5Cldots%20a%7Bn%7D%5C%7D%29&id=IjyDn)受到系数1.CS229-LinearAlgebra - 图326的限制的线性组合,1.CS229-LinearAlgebra - 图327满足1.CS229-LinearAlgebra - 图328。从形式上看,

1.CS229-LinearAlgebra - 图329

事实证明,1.CS229-LinearAlgebra - 图330的行列式的绝对值是对集合1.CS229-LinearAlgebra - 图331的“体积”的度量。

比方说:一个1.CS229-LinearAlgebra - 图332的矩阵(4):

1.CS229-LinearAlgebra - 图333

它的矩阵的行是:

1.CS229-LinearAlgebra - 图334

对应于这些行对应的集合1.CS229-LinearAlgebra - 图335如图1所示。对于二维矩阵,1.CS229-LinearAlgebra - 图336通常具有平行四边形的形状。 在我们的例子中,行列式的值是1.CS229-LinearAlgebra - 图337(可以使用本节后面显示的公式计算),因此平行四边形的面积为7。(请自己验证!)

在三维中,集合1.CS229-LinearAlgebra - 图338对应于一个称为平行六面体的对象(一个有倾斜边的三维框,这样每个面都有一个平行四边形)。行定义1.CS229-LinearAlgebra - 图3391.CS229-LinearAlgebra - 图340矩阵S的行列式的绝对值给出了平行六面体的三维体积。在更高的维度中,集合1.CS229-LinearAlgebra - 图341是一个称为1.CS229-LinearAlgebra - 图342维平行切的对象。
image.png
图1:(4)中给出的1.CS229-LinearAlgebra - 图344矩阵1.CS229-LinearAlgebra - 图345的行列式的图示。 这里,1.CS229-LinearAlgebra - 图3461.CS229-LinearAlgebra - 图347是对应于1.CS229-LinearAlgebra - 图348行的向量,并且集合1.CS229-LinearAlgebra - 图349对应于阴影区域(即,平行四边形)。 这个行列式的绝对值,1.CS229-LinearAlgebra - 图350,即平行四边形的面积。

在代数上,行列式满足以下三个属性(所有其他属性都遵循这些属性,包括通用公式):

  1. 恒等式的行列式为1, 1.CS229-LinearAlgebra - 图351(几何上,单位超立方体的体积为1)。
  2. 给定一个矩阵 1.CS229-LinearAlgebra - 图352, 如果我们将1.CS229-LinearAlgebra - 图353中的一行乘上一个标量1.CS229-LinearAlgebra - 图354,那么新矩阵的行列式是1.CS229-LinearAlgebra - 图355

1.CS229-LinearAlgebra - 图356

几何上,将集合1.CS229-LinearAlgebra - 图357的一个边乘以系数1.CS229-LinearAlgebra - 图358,体积也会增加一个系数1.CS229-LinearAlgebra - 图359

  1. 如果我们交换任意两行在1.CS229-LinearAlgebra - 图3601.CS229-LinearAlgebra - 图361,那么新矩阵的行列式是1.CS229-LinearAlgebra - 图362,例如:

1.CS229-LinearAlgebra - 图363

你一定很奇怪,满足上述三个属性的函数的存在并不多。事实上,这样的函数确实存在,而且是唯一的(我们在这里不再证明了)。

从上述三个属性中得出的几个属性包括:

  • 对于 1.CS229-LinearAlgebra - 图364, 1.CS229-LinearAlgebra - 图365
  • 对于 1.CS229-LinearAlgebra - 图366, 1.CS229-LinearAlgebra - 图367
  • 对于 1.CS229-LinearAlgebra - 图368, 有且只有当1.CS229-LinearAlgebra - 图369是奇异的(比如不可逆) ,则:1.CS229-LinearAlgebra - 图370
  • 对于 1.CS229-LinearAlgebra - 图371 同时,1.CS229-LinearAlgebra - 图372为非奇异的,则:1.CS229-LinearAlgebra - 图373

在给出行列式的一般定义之前,我们定义,对于1.CS229-LinearAlgebra - 图3741.CS229-LinearAlgebra - 图375%20%5Ctimes%20(n-1)%7D#card=math&code=A_%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cin%20%5Cmathbb%7BR%7D%5E%7B%28n-1%29%20%5Ctimes%20%28n-1%29%7D&id=CyXlF)是由于删除第1.CS229-LinearAlgebra - 图376行和第1.CS229-LinearAlgebra - 图377列而产生的矩阵。 行列式的一般(递归)公式是:

1.CS229-LinearAlgebra - 图378%5E%7Bi%2Bj%7D%20a%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad(%5Ctext%20%7B%20for%20any%20%7D%20j%20%5Cin%201%2C%20%5Cldots%2C%20n)%20%5C%5C%20%26%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D(-1)%5E%7Bi%2Bj%7D%20a%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad(%5Ctext%20%7B%20for%20any%20%7D%20i%20%5Cin%201%2C%20%5Cldots%2C%20n)%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%7CA%7C%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%28-1%29%5E%7Bi%2Bj%7D%20a%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad%28%5Ctext%20%7B%20for%20any%20%7D%20j%20%5Cin%201%2C%20%5Cldots%2C%20n%29%20%5C%5C%20%26%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%28-1%29%5E%7Bi%2Bj%7D%20a%7Bi%20j%7D%5Cleft%7CA_%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad%28%5Ctext%20%7B%20for%20any%20%7D%20i%20%5Cin%201%2C%20%5Cldots%2C%20n%29%20%5Cend%7Baligned%7D%0A&id=Yc4Fu)

对于 1.CS229-LinearAlgebra - 图379,初始情况为1.CS229-LinearAlgebra - 图380。如果我们把这个公式完全展开为 1.CS229-LinearAlgebra - 图381,就等于1.CS229-LinearAlgebra - 图3821.CS229-LinearAlgebra - 图383阶乘)不同的项。因此,对于大于1.CS229-LinearAlgebra - 图384的矩阵,我们几乎没有明确地写出完整的行列式方程。然而,1.CS229-LinearAlgebra - 图385大小的矩阵的行列式方程是相当常见的,建议好好地了解它们:

1.CS229-LinearAlgebra - 图386

1.CS229-LinearAlgebra - 图387

1.CS229-LinearAlgebra - 图388

矩阵1.CS229-LinearAlgebra - 图389的经典伴随矩阵(通常称为伴随矩阵)表示为1.CS229-LinearAlgebra - 图390#card=math&code=%5Coperatorname%7Badj%7D%28A%29&id=YNMq3),并定义为:

1.CS229-LinearAlgebra - 图391%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D%2C%20%5Cquad(%5Coperatorname%7Badj%7D(A))%7Bi%20j%7D%3D(-1)%5E%7Bi%2Bj%7D%5Cleft%7CA%7B%5Cbackslash%20j%2C%20%5Cbackslash%20i%7D%5Cright%7C%0A#card=math&code=%5Coperatorname%7Badj%7D%28A%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D%2C%20%5Cquad%28%5Coperatorname%7Badj%7D%28A%29%29%7Bi%20j%7D%3D%28-1%29%5E%7Bi%2Bj%7D%5Cleft%7CA%7B%5Cbackslash%20j%2C%20%5Cbackslash%20i%7D%5Cright%7C%0A&id=LYCRV)

(注意索引1.CS229-LinearAlgebra - 图392中的变化)。可以看出,对于任何非奇异1.CS229-LinearAlgebra - 图393

1.CS229-LinearAlgebra - 图394%0A#card=math&code=A%5E%7B-1%7D%3D%5Cfrac%7B1%7D%7B%7CA%7C%7D%20%5Coperatorname%7Badj%7D%28A%29%0A&id=Mould)

虽然这是一个很好的“显式”的逆矩阵公式,但我们应该注意,从数字上讲,有很多更有效的方法来计算逆矩阵。

3.11 二次型和半正定矩阵

给定方矩阵1.CS229-LinearAlgebra - 图395和向量1.CS229-LinearAlgebra - 图396,标量值1.CS229-LinearAlgebra - 图397被称为二次型。 写得清楚些,我们可以看到:

1.CS229-LinearAlgebra - 图398%7Bi%7D%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20x%7Bi%7D%5Cleft(%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bj%7D%5Cright)%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%0A#card=math&code=x%5E%7BT%7D%20A%20x%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20x%7Bi%7D%28A%20x%29%7Bi%7D%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20x%7Bi%7D%5Cleft%28%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bj%7D%5Cright%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%0A&id=qTepY)

注意:

1.CS229-LinearAlgebra - 图399%5E%7BT%7D%3Dx%5E%7BT%7D%20A%5E%7BT%7D%20x%3Dx%5E%7BT%7D%5Cleft(%5Cfrac%7B1%7D%7B2%7D%20A%2B%5Cfrac%7B1%7D%7B2%7D%20A%5E%7BT%7D%5Cright)%20x%0A#card=math&code=x%5E%7BT%7D%20A%20x%3D%5Cleft%28x%5E%7BT%7D%20A%20x%5Cright%29%5E%7BT%7D%3Dx%5E%7BT%7D%20A%5E%7BT%7D%20x%3Dx%5E%7BT%7D%5Cleft%28%5Cfrac%7B1%7D%7B2%7D%20A%2B%5Cfrac%7B1%7D%7B2%7D%20A%5E%7BT%7D%5Cright%29%20x%0A&id=heFyq)

第一个等号的是因为是标量的转置与自身相等,而第二个等号是因为是我们平均两个本身相等的量。 由此,我们可以得出结论,只有1.CS229-LinearAlgebra - 图400的对称部分有助于形成二次型。 出于这个原因,我们经常隐含地假设以二次型出现的矩阵是对称阵。
我们给出以下定义:

  • 对于所有非零向量1.CS229-LinearAlgebra - 图4011.CS229-LinearAlgebra - 图402,对称阵1.CS229-LinearAlgebra - 图403正定positive definite,PD)。这通常表示为1.CS229-LinearAlgebra - 图404(或1.CS229-LinearAlgebra - 图405),并且通常将所有正定矩阵的集合表示为1.CS229-LinearAlgebra - 图406
  • 对于所有向量1.CS229-LinearAlgebra - 图407,对称矩阵1.CS229-LinearAlgebra - 图408半正定(positive semidefinite ,PSD)。 这写为(或1.CS229-LinearAlgebra - 图4091.CS229-LinearAlgebra - 图410),并且所有半正定矩阵的集合通常表示为1.CS229-LinearAlgebra - 图411
  • 同样,对称矩阵1.CS229-LinearAlgebra - 图412负定negative definite,ND),如果对于所有非零1.CS229-LinearAlgebra - 图413,则1.CS229-LinearAlgebra - 图414表示为1.CS229-LinearAlgebra - 图415(或1.CS229-LinearAlgebra - 图416)。
  • 类似地,对称矩阵1.CS229-LinearAlgebra - 图417半负定(negative semidefinite,NSD),如果对于所有1.CS229-LinearAlgebra - 图418,则1.CS229-LinearAlgebra - 图419表示为1.CS229-LinearAlgebra - 图420(或1.CS229-LinearAlgebra - 图421)。
  • 最后,对称矩阵1.CS229-LinearAlgebra - 图422不定的,如果它既不是正半定也不是负半定,即,如果存在1.CS229-LinearAlgebra - 图423,那么1.CS229-LinearAlgebra - 图4241.CS229-LinearAlgebra - 图425

很明显,如果1.CS229-LinearAlgebra - 图426是正定的,那么1.CS229-LinearAlgebra - 图427是负定的,反之亦然。同样,如果1.CS229-LinearAlgebra - 图428是半正定的,那么1.CS229-LinearAlgebra - 图429是是半负定的,反之亦然。如果果1.CS229-LinearAlgebra - 图430是不定的,那么1.CS229-LinearAlgebra - 图431是也是不定的。

正定矩阵和负定矩阵的一个重要性质是它们总是满秩,因此是可逆的。为了了解这是为什么,假设某个矩阵1.CS229-LinearAlgebra - 图432不是满秩。然后,假设1.CS229-LinearAlgebra - 图433的第1.CS229-LinearAlgebra - 图434列可以表示为其他1.CS229-LinearAlgebra - 图435列的线性组合:

1.CS229-LinearAlgebra - 图436

对于某些1.CS229-LinearAlgebra - 图437。设1.CS229-LinearAlgebra - 图438,则:

1.CS229-LinearAlgebra - 图439

但这意味着对于某些非零向量1.CS229-LinearAlgebra - 图4401.CS229-LinearAlgebra - 图441,因此1.CS229-LinearAlgebra - 图442必须既不是正定也不是负定。如果1.CS229-LinearAlgebra - 图443是正定或负定,则必须是满秩。
最后,有一种类型的正定矩阵经常出现,因此值得特别提及。 给定矩阵1.CS229-LinearAlgebra - 图444(不一定是对称或偶数平方),矩阵1.CS229-LinearAlgebra - 图445(有时称为Gram矩阵)总是半正定的。 此外,如果1.CS229-LinearAlgebra - 图446(同时为了方便起见,我们假设1.CS229-LinearAlgebra - 图447是满秩),则1.CS229-LinearAlgebra - 图448是正定的。

3.12 特征值和特征向量

给定一个方阵1.CS229-LinearAlgebra - 图449,我们认为在以下条件下,1.CS229-LinearAlgebra - 图4501.CS229-LinearAlgebra - 图451特征值1.CS229-LinearAlgebra - 图452是相应的特征向量

1.CS229-LinearAlgebra - 图453

直观地说,这个定义意味着将1.CS229-LinearAlgebra - 图454乘以向量1.CS229-LinearAlgebra - 图455会得到一个新的向量,该向量指向与1.CS229-LinearAlgebra - 图456相同的方向,但按系数1.CS229-LinearAlgebra - 图457缩放。值得注意的是,对于任何特征向量1.CS229-LinearAlgebra - 图458和标量1.CS229-LinearAlgebra - 图4591.CS229-LinearAlgebra - 图460%3DcAx%3Dc%5Clambda%20x%3D%5Clambda(cx)#card=math&code=A%28cx%29%3DcAx%3Dc%5Clambda%20x%3D%5Clambda%28cx%29&id=cwCCU),1.CS229-LinearAlgebra - 图461也是一个特征向量。因此,当我们讨论与1.CS229-LinearAlgebra - 图462相关的特征向量时,我们通常假设特征向量被标准化为长度为1(这仍然会造成一些歧义,因为1.CS229-LinearAlgebra - 图4631.CS229-LinearAlgebra - 图464都是特征向量,但我们必须接受这一点)。

我们可以重写上面的等式来说明1.CS229-LinearAlgebra - 图465#card=math&code=%28%5Clambda%2Cx%29&id=MapJg)是1.CS229-LinearAlgebra - 图466的特征值和特征向量的组合:

1.CS229-LinearAlgebra - 图467x%3D0%2Cx%20%5Cne%200%0A#card=math&code=%28%5Clambda%20I-A%29x%3D0%2Cx%20%5Cne%200%0A&id=eyq9I)

但是1.CS229-LinearAlgebra - 图468x%3D0#card=math&code=%28%5Clambda%20I-A%29x%3D0&id=IGpcw)只有当1.CS229-LinearAlgebra - 图469#card=math&code=%28%5Clambda%20I-A%29&id=hEnyP)有一个非空零空间时,同时1.CS229-LinearAlgebra - 图470#card=math&code=%28%5Clambda%20I-A%29&id=n4vby)是奇异的,1.CS229-LinearAlgebra - 图471才具有非零解,即:

1.CS229-LinearAlgebra - 图472%7C%3D0%0A#card=math&code=%7C%28%5Clambda%20I-A%29%7C%3D0%0A&id=FrqrL)

现在,我们可以使用行列式的先前定义将表达式1.CS229-LinearAlgebra - 图473%7C#card=math&code=%7C%28%5Clambda%20I-A%29%7C&id=KC8lJ)扩展为1.CS229-LinearAlgebra - 图474中的(非常大的)多项式,其中,1.CS229-LinearAlgebra - 图475的度为1.CS229-LinearAlgebra - 图476。它通常被称为矩阵1.CS229-LinearAlgebra - 图477的特征多项式。

然后我们找到这个特征多项式的1.CS229-LinearAlgebra - 图478(可能是复数)根,并用1.CS229-LinearAlgebra - 图479表示。这些都是矩阵1.CS229-LinearAlgebra - 图480的特征值,但我们注意到它们可能不明显。为了找到特征值1.CS229-LinearAlgebra - 图481对应的特征向量,我们只需解线性方程1.CS229-LinearAlgebra - 图482x%3D0#card=math&code=%28%5Clambda%20I-A%29x%3D0&id=T68za),因为1.CS229-LinearAlgebra - 图483#card=math&code=%28%5Clambda%20I-A%29&id=ex0Ry)是奇异的,所以保证有一个非零解(但也可能有多个或无穷多个解)。

应该注意的是,这不是实际用于数值计算特征值和特征向量的方法(记住行列式的完全展开式有1.CS229-LinearAlgebra - 图484项),这是一个数学上的争议。

以下是特征值和特征向量的属性(所有假设在1.CS229-LinearAlgebra - 图485具有特征值1.CS229-LinearAlgebra - 图486的前提下):

  • 1.CS229-LinearAlgebra - 图487的迹等于其特征值之和 1.CS229-LinearAlgebra - 图488
  • 1.CS229-LinearAlgebra - 图489的行列式等于其特征值的乘积 1.CS229-LinearAlgebra - 图490
  • 1.CS229-LinearAlgebra - 图491的秩等于1.CS229-LinearAlgebra - 图492的非零特征值的个数
  • 假设1.CS229-LinearAlgebra - 图493非奇异,其特征值为1.CS229-LinearAlgebra - 图494和特征向量为1.CS229-LinearAlgebra - 图495。那么1.CS229-LinearAlgebra - 图496是具有相关特征向量1.CS229-LinearAlgebra - 图4971.CS229-LinearAlgebra - 图498的特征值,即1.CS229-LinearAlgebra - 图499x#card=math&code=A%5E%7B-1%7Dx%3D%281%2F%5Clambda%29x&id=p7CkT)。(要证明这一点,取特征向量方程,1.CS229-LinearAlgebra - 图500,两边都左乘1.CS229-LinearAlgebra - 图501
  • 对角阵的特征值1.CS229-LinearAlgebra - 图502#card=math&code=d%3Ddiag%28d_1%EF%BC%8C%5Ccdots%2Cd_n%29&id=u3kgR)实际上就是对角元素1.CS229-LinearAlgebra - 图503

3.13 对称矩阵的特征值和特征向量

通常情况下,一般的方阵的特征值和特征向量的结构可以很细微地表示出来。
值得庆幸的是,在机器学习的大多数场景下,处理对称实矩阵就足够了,其处理的对称实矩阵的特征值和特征向量具有显着的特性。

在本节中,我们假设1.CS229-LinearAlgebra - 图504是实对称矩阵, 具有以下属性:

  1. 1.CS229-LinearAlgebra - 图505的所有特征值都是实数。 我们用用1.CS229-LinearAlgebra - 图506表示。
  2. 存在一组特征向量1.CS229-LinearAlgebra - 图507,对于所有1.CS229-LinearAlgebra - 图5081.CS229-LinearAlgebra - 图509是具有特征值1.CS229-LinearAlgebra - 图5101.CS229-LinearAlgebra - 图511的特征向量。1.CS229-LinearAlgebra - 图512是单位向量并且彼此正交。

1.CS229-LinearAlgebra - 图513是包含1.CS229-LinearAlgebra - 图514作为列的正交矩阵:

1.CS229-LinearAlgebra - 图515

1.CS229-LinearAlgebra - 图516#card=math&code=%5CLambda%3D%20diag%28%5Clambda_1%2C%5Ccdots%2C%5Clambda_n%29&id=X0FXz)是包含1.CS229-LinearAlgebra - 图517作为对角线上的元素的对角矩阵。 使用2.3节的方程(2)中的矩阵 - 矩阵向量乘法的方法,我们可以验证:

1.CS229-LinearAlgebra - 图518%3DU%20%5CLambda%0A#card=math&code=A%20U%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%7B%20%7C%7D%20%26%20%7B%20%7C%7D%20%26%20%7B%7D%20%26%20%7B%20%7C%7D%20%5C%5C%20%7BA%20u%7B1%7D%7D%20%26%20%7BA%20u%7B2%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7BA%20u%7Bn%7D%7D%20%5C%5C%20%7B%20%7C%7D%20%26%20%7B%20%7C%7D%20%26%20%7B%7D%20%26%20%7B%20%7C%7D%5Cend%7Barray%7D%5Cright%5D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bccc%7D%7B%20%7C%7D%20%26%20%7B%20%7C%7D%20%26%20%7B%20%7C%7D%20%26%20%7B%20%7C%7D%5C%5C%20%7B%5Clambda%7B1%7D%20u%7B1%7D%7D%20%26%20%7B%5Clambda%7B2%7D%20u%7B2%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Clambda%7Bn%7D%20u%7Bn%7D%7D%20%5C%5C%20%7B%20%7C%7D%20%26%20%7B%20%7C%7D%20%26%20%7B%7C%7D%20%26%20%7B%20%7C%7D%5Cend%7Barray%7D%5Cright%5D%3DU%20%5Coperatorname%7Bdiag%7D%5Cleft%28%5Clambda%7B1%7D%2C%20%5Cldots%2C%20%5Clambda_%7Bn%7D%5Cright%29%3DU%20%5CLambda%0A&id=SIscc)

考虑到正交矩阵1.CS229-LinearAlgebra - 图519满足1.CS229-LinearAlgebra - 图520,利用上面的方程,我们得到:

1.CS229-LinearAlgebra - 图521

这种1.CS229-LinearAlgebra - 图522的新的表示形式为1.CS229-LinearAlgebra - 图523,通常称为矩阵1.CS229-LinearAlgebra - 图524的对角化。术语对角化是这样来的:通过这种表示,我们通常可以有效地将对称矩阵1.CS229-LinearAlgebra - 图525视为对角矩阵 , 这更容易理解。关于由特征向量1.CS229-LinearAlgebra - 图526定义的基础, 我们将通过几个例子详细说明。

背景知识:代表另一个基的向量。

任何正交矩阵1.CS229-LinearAlgebra - 图527定义了一个新的属于1.CS229-LinearAlgebra - 图528的基(坐标系),意义如下:对于任何向量1.CS229-LinearAlgebra - 图529都可以表示为1.CS229-LinearAlgebra - 图530的线性组合,其系数为1.CS229-LinearAlgebra - 图531

1.CS229-LinearAlgebra - 图532

在第二个等式中,我们使用矩阵和向量相乘的方法。 实际上,这种1.CS229-LinearAlgebra - 图533是唯一存在的:

1.CS229-LinearAlgebra - 图534

换句话说,向量1.CS229-LinearAlgebra - 图535可以作为向量1.CS229-LinearAlgebra - 图536的另一种表示,与1.CS229-LinearAlgebra - 图537定义的基有关。

“对角化”矩阵向量乘法。 通过上面的设置,我们将看到左乘矩阵1.CS229-LinearAlgebra - 图538可以被视为左乘以对角矩阵关于特征向量的基。 假设1.CS229-LinearAlgebra - 图539是一个向量,1.CS229-LinearAlgebra - 图540表示1.CS229-LinearAlgebra - 图541的基。设1.CS229-LinearAlgebra - 图542为矩阵向量积。现在让我们计算关于1.CS229-LinearAlgebra - 图543的基1.CS229-LinearAlgebra - 图544
然后,再利用1.CS229-LinearAlgebra - 图545和方程1.CS229-LinearAlgebra - 图546,我们得到:

1.CS229-LinearAlgebra - 图547

我们可以看到,原始空间中的左乘矩阵1.CS229-LinearAlgebra - 图548等于左乘对角矩阵1.CS229-LinearAlgebra - 图549相对于新的基,即仅将每个坐标缩放相应的特征值。
在新的基上,矩阵多次相乘也变得简单多了。例如,假设1.CS229-LinearAlgebra - 图550。根据1.CS229-LinearAlgebra - 图551的元素导出1.CS229-LinearAlgebra - 图552的分析形式,使用原始的基可能是一场噩梦,但使用新的基就容易多了:

1.CS229-LinearAlgebra - 图553

“对角化”二次型。作为直接的推论,二次型1.CS229-LinearAlgebra - 图554也可以在新的基上简化。

1.CS229-LinearAlgebra - 图555

(回想一下,在旧的表示法中,1.CS229-LinearAlgebra - 图556涉及一个1.CS229-LinearAlgebra - 图557项的和,而不是上面等式中的1.CS229-LinearAlgebra - 图558项。)利用这个观点,我们还可以证明矩阵1.CS229-LinearAlgebra - 图559的正定性完全取决于其特征值的符号:

  1. 如果所有的1.CS229-LinearAlgebra - 图560,则矩阵1.CS229-LinearAlgebra - 图561正定的,因为对于任意的1.CS229-LinearAlgebra - 图562,1.CS229-LinearAlgebra - 图563
  2. 如果所有的1.CS229-LinearAlgebra - 图564,则矩阵1.CS229-LinearAlgebra - 图565是为正半定,因为对于任意的1.CS229-LinearAlgebra - 图566
  3. 同样,如果所有1.CS229-LinearAlgebra - 图5671.CS229-LinearAlgebra - 图568,则矩阵1.CS229-LinearAlgebra - 图569分别为负定或半负定。
  4. 最后,如果1.CS229-LinearAlgebra - 图570同时具有正特征值和负特征值,比如λ1.CS229-LinearAlgebra - 图5711.CS229-LinearAlgebra - 图572,那么它是不定的。这是因为如果我们让1.CS229-LinearAlgebra - 图573满足1.CS229-LinearAlgebra - 图5741.CS229-LinearAlgebra - 图575,同时所有的1.CS229-LinearAlgebra - 图576,那么1.CS229-LinearAlgebra - 图577 ,我们让1.CS229-LinearAlgebra - 图578满足1.CS229-LinearAlgebra - 图5791.CS229-LinearAlgebra - 图580,同时所有的1.CS229-LinearAlgebra - 图581,那么1.CS229-LinearAlgebra - 图582

特征值和特征向量经常出现的应用是最大化矩阵的某些函数。特别是对于矩阵1.CS229-LinearAlgebra - 图583,考虑以下最大化问题:

1.CS229-LinearAlgebra - 图584

也就是说,我们要找到(范数1)的向量,它使二次型最大化。假设特征值的阶数为1.CS229-LinearAlgebra - 图585,此优化问题的最优值为1.CS229-LinearAlgebra - 图586,且与1.CS229-LinearAlgebra - 图587对应的任何特征向量1.CS229-LinearAlgebra - 图588都是最大值之一。(如果1.CS229-LinearAlgebra - 图589,那么有一个与特征值1.CS229-LinearAlgebra - 图590对应的唯一特征向量,它是上面那个优化问题的唯一最大值。)
我们可以通过使用对角化技术来证明这一点:注意,通过公式1.CS229-LinearAlgebra - 图591推出1.CS229-LinearAlgebra - 图592,并利用公式:

1.CS229-LinearAlgebra - 图593,我们可以将上面那个优化问题改写为:

1.CS229-LinearAlgebra - 图594

然后,我们得到目标的上界为1.CS229-LinearAlgebra - 图595

1.CS229-LinearAlgebra - 图596

此外,设置1.CS229-LinearAlgebra - 图597可让上述等式成立,这与设置1.CS229-LinearAlgebra - 图598相对应。

4.矩阵微积分

虽然前面章节中的主题通常包含在线性代数的标准课程中,但似乎很少涉及(我们将广泛使用)的一个主题是微积分扩展到向量设置展。尽管我们使用的所有实际微积分都是相对微不足道的,但是符号通常会使事情看起来比实际困难得多。 在本节中,我们将介绍矩阵微积分的一些基本定义,并提供一些示例。

4.1 梯度

假设1.CS229-LinearAlgebra - 图599是将维度为1.CS229-LinearAlgebra - 图600的矩阵1.CS229-LinearAlgebra - 图601作为输入并返回实数值的函数。 然后1.CS229-LinearAlgebra - 图602的梯度(相对于1.CS229-LinearAlgebra - 图603)是偏导数矩阵,定义如下:

1.CS229-LinearAlgebra - 图604%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%20%5Ctimes%20n%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B11%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B12%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B1n%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B21%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B22%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B2%20n%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%26%20%7B%5Cvdots%7D%20%26%20%7B%5Cddots%7D%20%26%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7Bm%201%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7Bm%202%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7Bm%20n%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7BA%7D%20f%28A%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%20%5Ctimes%20n%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B11%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B12%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B1n%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B21%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B22%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B2%20n%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%26%20%7B%5Cvdots%7D%20%26%20%7B%5Cddots%7D%20%26%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7Bm%201%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7Bm%202%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A_%7Bm%20n%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A&id=Ak8yd)

即,1.CS229-LinearAlgebra - 图605矩阵:

1.CS229-LinearAlgebra - 图606%5Cright)%7Bi%20j%7D%3D%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7Bi%20j%7D%7D%0A#card=math&code=%5Cleft%28%5Cnabla%7BA%7D%20f%28A%29%5Cright%29%7Bi%20j%7D%3D%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A_%7Bi%20j%7D%7D%0A&id=eiGYY)

请注意,1.CS229-LinearAlgebra - 图607 的维度始终与1.CS229-LinearAlgebra - 图608的维度相同。特殊情况,如果1.CS229-LinearAlgebra - 图609只是向量1.CS229-LinearAlgebra - 图610,则

1.CS229-LinearAlgebra - 图611%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7Bx%7D%20f%28x%29%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x_%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A&id=TPRCh)

重要的是要记住,只有当函数是实值时,即如果函数返回标量值,才定义函数的梯度。例如,1.CS229-LinearAlgebra - 图612相对于1.CS229-LinearAlgebra - 图613,我们不能取1.CS229-LinearAlgebra - 图614的梯度,因为这个量是向量值。
它直接从偏导数的等价性质得出:

  • 1.CS229-LinearAlgebra - 图615%2Bg(x))%3D%5Cnabla%7Bx%7D%20f(x)%2B%5Cnabla%7Bx%7D%20g(x)#card=math&code=%5Cnabla%7Bx%7D%28f%28x%29%2Bg%28x%29%29%3D%5Cnabla%7Bx%7D%20f%28x%29%2B%5Cnabla_%7Bx%7D%20g%28x%29&id=X8hrd)
  • 对于1.CS229-LinearAlgebra - 图6161.CS229-LinearAlgebra - 图617)%3Dt%20%5Cnabla%7Bx%7D%20f(x)#card=math&code=%5Cnabla%7Bx%7D%28t%20f%28x%29%29%3Dt%20%5Cnabla_%7Bx%7D%20f%28x%29&id=YmSLL)

原则上,梯度是偏导数对多变量函数的自然延伸。然而,在实践中,由于符号的原因,使用梯度有时是很困难的。例如,假设1.CS229-LinearAlgebra - 图618是一个固定系数矩阵,假设1.CS229-LinearAlgebra - 图619是一个固定系数向量。设1.CS229-LinearAlgebra - 图6201.CS229-LinearAlgebra - 图621%3Dz%5ETz#card=math&code=f%28z%29%3Dz%5ETz&id=vzUu4)定义的函数,因此1.CS229-LinearAlgebra - 图622%3D2z#card=math&code=%5Cnabla_%7Bz%7Df%28z%29%3D2z&id=D0HIE)。但现在考虑表达式,

1.CS229-LinearAlgebra - 图623%0A#card=math&code=%5Cnabla%20f%28Ax%29%0A&id=LI8Zk)

该表达式应该如何解释? 至少有两种可能性:
1.在第一个解释中,回想起1.CS229-LinearAlgebra - 图624%3D2z#card=math&code=%5Cnabla_%7Bz%7Df%28z%29%3D2z&id=lwTIs)。 在这里,我们将1.CS229-LinearAlgebra - 图625#card=math&code=%5Cnabla%20f%28Ax%29&id=fO6Bd)解释为评估点1.CS229-LinearAlgebra - 图626处的梯度,因此:

1.CS229-LinearAlgebra - 图627%3D2(A%20x)%3D2%20A%20x%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%7D%0A#card=math&code=%5Cnabla%20f%28A%20x%29%3D2%28A%20x%29%3D2%20A%20x%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%7D%0A&id=buYwg)

2.在第二种解释中,我们将数量1.CS229-LinearAlgebra - 图628#card=math&code=f%28Ax%29&id=kOZSZ)视为输入变量1.CS229-LinearAlgebra - 图629的函数。 更正式地说,设1.CS229-LinearAlgebra - 图630%20%3Df(Ax)#card=math&code=g%28x%29%20%3Df%28Ax%29&id=B5eps)。 然后在这个解释中:

1.CS229-LinearAlgebra - 图631%3D%5Cnabla%7Bx%7D%20g(x)%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%0A#card=math&code=%5Cnabla%20f%28A%20x%29%3D%5Cnabla%7Bx%7D%20g%28x%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%0A&id=ZIjYO)

在这里,我们可以看到这两种解释确实不同。 一种解释产生1.CS229-LinearAlgebra - 图632维向量作为结果,而另一种解释产生1.CS229-LinearAlgebra - 图633维向量作为结果! 我们怎么解决这个问题?

这里,关键是要明确我们要区分的变量。
在第一种情况下,我们将函数1.CS229-LinearAlgebra - 图634与其参数1.CS229-LinearAlgebra - 图635进行区分,然后替换参数1.CS229-LinearAlgebra - 图636
在第二种情况下,我们将复合函数1.CS229-LinearAlgebra - 图637%3Df(Ax)#card=math&code=g%28x%29%3Df%28Ax%29&id=LAFDz)直接与1.CS229-LinearAlgebra - 图638进行微分。

我们将第一种情况表示为1.CS229-LinearAlgebra - 图639#card=math&code=%5Cnabla%20zf%28Ax%29&id=adNxj),第二种情况表示为1.CS229-LinearAlgebra - 图640#card=math&code=%5Cnabla%20xf%28Ax%29&id=PYfJb)。

保持符号清晰是非常重要的,以后完成课程作业时候你就会发现。

4.2 黑塞矩阵

假设1.CS229-LinearAlgebra - 图641是一个函数,它接受1.CS229-LinearAlgebra - 图642中的向量并返回实数。那么关于1.CS229-LinearAlgebra - 图643黑塞矩阵(也有翻译作海森矩阵),写做:1.CS229-LinearAlgebra - 图644#card=math&code=%5Cnabla_x%20%5E2%20f%28A%20x%29&id=fUsBg),或者简单地说,1.CS229-LinearAlgebra - 图6451.CS229-LinearAlgebra - 图646矩阵的偏导数:

1.CS229-LinearAlgebra - 图647%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B1%7D%5E%7B2%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B1%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B1%7D%20%5Cpartial%20x%7Bn%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%5E%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7Bn%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%26%20%7B%5Cvdots%7D%20%26%20%7B%5Cddots%7D%20%26%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bn%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bn%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bn%7D%5E%7B2%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7Bx%7D%5E%7B2%7D%20f%28x%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B1%7D%5E%7B2%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B1%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B1%7D%20%5Cpartial%20x%7Bn%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%5E%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7Bn%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%26%20%7B%5Cvdots%7D%20%26%20%7B%5Cddots%7D%20%26%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bn%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bn%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x_%7Bn%7D%5E%7B2%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A&id=rYbXZ)

换句话说,1.CS229-LinearAlgebra - 图648%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D#card=math&code=%5Cnabla_%7Bx%7D%5E%7B2%7D%20f%28x%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D&id=csDQ9),其:

1.CS229-LinearAlgebra - 图649%5Cright)%7Bi%20j%7D%3D%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7Bj%7D%7D%0A#card=math&code=%5Cleft%28%5Cnabla%7Bx%7D%5E%7B2%7D%20f%28x%29%5Cright%29%7Bi%20j%7D%3D%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x_%7Bj%7D%7D%0A&id=RLfl9)

注意:黑塞矩阵通常是对称阵:

1.CS229-LinearAlgebra - 图650%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7Bj%7D%7D%3D%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bj%7D%20%5Cpartial%20x%7Bi%7D%7D%0A#card=math&code=%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7Bj%7D%7D%3D%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bj%7D%20%5Cpartial%20x%7Bi%7D%7D%0A&id=RXEn0)

与梯度相似,只有当1.CS229-LinearAlgebra - 图651#card=math&code=f%28x%29&id=LUUlG)为实值时才定义黑塞矩阵。

很自然地认为梯度与向量函数的一阶导数的相似,而黑塞矩阵与二阶导数的相似(我们使用的符号也暗示了这种关系)。 这种直觉通常是正确的,但需要记住以下几个注意事项。
首先,对于一个变量1.CS229-LinearAlgebra - 图652的实值函数,它的基本定义:二阶导数是一阶导数的导数,即:

1.CS229-LinearAlgebra - 图653%7D%7B%5Cpartial%20x%5E%7B2%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7D%20f(x)%0A#card=math&code=%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%5E%7B2%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7D%20f%28x%29%0A&id=B0Pbw)

然而,对于向量的函数,函数的梯度是一个向量,我们不能取向量的梯度,即:

1.CS229-LinearAlgebra - 图654%3D%5Cnabla%7Bx%7D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7Bx%7D%20%5Cnabla%7Bx%7D%20f%28x%29%3D%5Cnabla%7Bx%7D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A&id=c8gxB)

上面这个表达式没有意义。 因此,黑塞矩阵不是梯度的梯度。 然而,下面这种情况却这几乎是正确的:如果我们看一下梯度1.CS229-LinearAlgebra - 图655%5Cright)%7Bi%7D%3D%5Cpartial%20f(x)%20%2F%20%5Cpartial%20x%7Bi%7D#card=math&code=%5Cleft%28%5Cnabla%7Bx%7D%20f%28x%29%5Cright%29%7Bi%7D%3D%5Cpartial%20f%28x%29%20%2F%20%5Cpartial%20x_%7Bi%7D&id=E9nk4)的第1.CS229-LinearAlgebra - 图656个元素,并取关于于1.CS229-LinearAlgebra - 图657的梯度我们得到:

1.CS229-LinearAlgebra - 图658%7D%7B%5Cpartial%20x%7Bi%7D%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7Bx%7D%20%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7Bi%7D%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x_%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A&id=JfGQ2)

这是黑塞矩阵第1.CS229-LinearAlgebra - 图659行(列),所以:

1.CS229-LinearAlgebra - 图660%3D%5Cleft%5B%5Cnabla%7Bx%7D%5Cleft(%5Cnabla%7Bx%7D%20f(x)%5Cright)%7B1%7D%20%5Cquad%20%5Cnabla%7Bx%7D%5Cleft(%5Cnabla%7Bx%7D%20f(x)%5Cright)%7B2%7D%20%5Cquad%20%5Ccdots%20%5Cquad%20%5Cnabla%7Bx%7D%5Cleft(%5Cnabla%7Bx%7D%20f(x)%5Cright)%7Bn%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7Bx%7D%5E%7B2%7D%20f%28x%29%3D%5Cleft%5B%5Cnabla%7Bx%7D%5Cleft%28%5Cnabla%7Bx%7D%20f%28x%29%5Cright%29%7B1%7D%20%5Cquad%20%5Cnabla%7Bx%7D%5Cleft%28%5Cnabla%7Bx%7D%20f%28x%29%5Cright%29%7B2%7D%20%5Cquad%20%5Ccdots%20%5Cquad%20%5Cnabla%7Bx%7D%5Cleft%28%5Cnabla%7Bx%7D%20f%28x%29%5Cright%29_%7Bn%7D%5Cright%5D%0A&id=hUNfs)

简单地说:我们可以说由于:1.CS229-LinearAlgebra - 图661%3D%5Cnabla%7Bx%7D%5Cleft(%5Cnabla%7Bx%7D%20f(x)%5Cright)%5E%7BT%7D#card=math&code=%5Cnabla%7Bx%7D%5E%7B2%7D%20f%28x%29%3D%5Cnabla%7Bx%7D%5Cleft%28%5Cnabla%7Bx%7D%20f%28x%29%5Cright%29%5E%7BT%7D&id=ReRse),只要我们理解,这实际上是取![](https://g.yuque.com/gr/latex?%5Cnabla%7Bx%7D%20f(x)#card=math&code=%5Cnabla_%7Bx%7D%20f%28x%29&id=gUwsT)的每个元素的梯度,而不是整个向量的梯度。

最后,请注意,虽然我们可以对矩阵1.CS229-LinearAlgebra - 图662取梯度,但对于这门课,我们只考虑对向量1.CS229-LinearAlgebra - 图663取黑塞矩阵。
这会方便很多(事实上,我们所做的任何计算都不要求我们找到关于矩阵的黑森方程),因为关于矩阵的黑塞方程就必须对矩阵所有元素求偏导数1.CS229-LinearAlgebra - 图664%20%2F%5Cleft(%5Cpartial%20A%7Bi%20j%7D%20%5Cpartial%20A%7Bk%20%5Cell%7D%5Cright)#card=math&code=%5Cpartial%5E%7B2%7D%20f%28A%29%20%2F%5Cleft%28%5Cpartial%20A%7Bi%20j%7D%20%5Cpartial%20A%7Bk%20%5Cell%7D%5Cright%29&id=Kv1Xd),将其表示为矩阵相当麻烦。

4.3 二次函数和线性函数的梯度和黑塞矩阵

现在让我们尝试确定几个简单函数的梯度和黑塞矩阵。 应该注意的是,这里给出的所有梯度都是CS229讲义中给出的梯度的特殊情况。

对于1.CS229-LinearAlgebra - 图665, 设1.CS229-LinearAlgebra - 图666%3Db%5ETx#card=math&code=f%28x%29%3Db%5ETx&id=iIwQd) 的某些已知向量1.CS229-LinearAlgebra - 图667 ,则:

1.CS229-LinearAlgebra - 图668%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20b%7Bi%7D%20x%7Bi%7D%0A#card=math&code=f%28x%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20b%7Bi%7D%20x%7Bi%7D%0A&id=RmM9w)

所以:

1.CS229-LinearAlgebra - 图669%7D%7B%5Cpartial%20x%7Bk%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20b%7Bi%7D%20x%7Bi%7D%3Db%7Bk%7D%0A#card=math&code=%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7Bk%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20b%7Bi%7D%20x%7Bi%7D%3Db%7Bk%7D%0A&id=O0BZ5)

由此我们可以很容易地看出1.CS229-LinearAlgebra - 图670。 这应该与单变量微积分中的类似情况进行比较,其中1.CS229-LinearAlgebra - 图671%20a%20x%3Da#card=math&code=%5Cpartial%20%2F%28%5Cpartial%20x%29%20a%20x%3Da&id=ui1pS)。
现在考虑1.CS229-LinearAlgebra - 图672的二次函数1.CS229-LinearAlgebra - 图673%3Dx%5ETAx#card=math&code=f%28x%29%3Dx%5ETAx&id=k8egA)。 记住这一点:

1.CS229-LinearAlgebra - 图674%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%0A#card=math&code=f%28x%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%0A&id=VaSPT)

为了取偏导数,我们将分别考虑包括1.CS229-LinearAlgebra - 图6751.CS229-LinearAlgebra - 图676因子的项:

1.CS229-LinearAlgebra - 图677%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%20%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B%5Csum%7Bi%20%5Cneq%20k%7D%20%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%2B%5Csum%7Bi%20%5Cneq%20k%7D%20A%7Bi%20k%7D%20x%7Bi%7D%20x%7Bk%7D%2B%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bk%20j%7D%20x%7Bk%7D%20x%7Bj%7D%2BA%7Bk%20k%7D%20x%7Bk%7D%5E%7B2%7D%5Cright%5D%20%5C%5C%20%26%3D%5Csum%7Bi%20%5Cneq%20k%7D%20A%7Bi%20k%7D%20x%7Bi%7D%2B%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bk%20j%7D%20x%7Bj%7D%2B2%20A%7Bk%20k%7D%20x%7Bk%7D%20%5C%5C%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7Bi%20k%7D%20x%7Bi%7D%2B%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bk%20j%7D%20x%7Bj%7D%3D2%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7Bk%20i%7D%20x%7Bi%7D%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%20%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%20%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B%5Csum%7Bi%20%5Cneq%20k%7D%20%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%2B%5Csum%7Bi%20%5Cneq%20k%7D%20A%7Bi%20k%7D%20x%7Bi%7D%20x%7Bk%7D%2B%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bk%20j%7D%20x%7Bk%7D%20x%7Bj%7D%2BA%7Bk%20k%7D%20x%7Bk%7D%5E%7B2%7D%5Cright%5D%20%5C%5C%20%26%3D%5Csum%7Bi%20%5Cneq%20k%7D%20A%7Bi%20k%7D%20x%7Bi%7D%2B%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bk%20j%7D%20x%7Bj%7D%2B2%20A%7Bk%20k%7D%20x%7Bk%7D%20%5C%5C%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7Bi%20k%7D%20x%7Bi%7D%2B%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bk%20j%7D%20x%7Bj%7D%3D2%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7Bk%20i%7D%20x%7Bi%7D%20%5Cend%7Baligned%7D%0A&id=SYyjW)

最后一个等式,是因为1.CS229-LinearAlgebra - 图678是对称的(我们可以安全地假设,因为它以二次形式出现)。 注意,1.CS229-LinearAlgebra - 图679#card=math&code=%5Cnabla%7Bx%7D%20f%28x%29&id=G5ilj)的第1.CS229-LinearAlgebra - 图680个元素是1.CS229-LinearAlgebra - 图6811.CS229-LinearAlgebra - 图682的第1.CS229-LinearAlgebra - 图683行的内积。 因此,![](https://g.yuque.com/gr/latex?%5Cnabla%7Bx%7D%20x%5E%7BT%7D%20A%20x%3D2%20A%20x#card=math&code=%5Cnabla_%7Bx%7D%20x%5E%7BT%7D%20A%20x%3D2%20A%20x&id=XI36j)。 同样,这应该提醒你单变量微积分中的类似事实,即1.CS229-LinearAlgebra - 图684%20a%20x%5E%7B2%7D%3D2%20a%20x#card=math&code=%5Cpartial%20%2F%28%5Cpartial%20x%29%20a%20x%5E%7B2%7D%3D2%20a%20x&id=d2f3B)。

最后,让我们来看看二次函数1.CS229-LinearAlgebra - 图685%3Dx%5ETAx#card=math&code=f%28x%29%3Dx%5ETAx&id=HI7qO)黑塞矩阵(显然,线性函数1.CS229-LinearAlgebra - 图686的黑塞矩阵为零)。在这种情况下:

1.CS229-LinearAlgebra - 图687%7D%7B%5Cpartial%20x%7Bk%7D%20%5Cpartial%20x%7B%5Cell%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7B%5Cell%7D%7D%5Cright%5D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B2%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7B%5Cell%20i%7D%20x%7Bi%7D%5Cright%5D%3D2%20A%7B%5Cell%20k%7D%3D2%20A%7Bk%20%5Cell%7D%0A#card=math&code=%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bk%7D%20%5Cpartial%20x%7B%5Cell%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7B%5Cell%7D%7D%5Cright%5D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B2%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7B%5Cell%20i%7D%20x%7Bi%7D%5Cright%5D%3D2%20A%7B%5Cell%20k%7D%3D2%20A%7Bk%20%5Cell%7D%0A&id=dYozo)

因此,应该很清楚1.CS229-LinearAlgebra - 图688,这应该是完全可以理解的(同样类似于1.CS229-LinearAlgebra - 图689%20a%20x%5E%7B2%7D%3D2a#card=math&code=%5Cpartial%5E2%20%2F%28%5Cpartial%20x%5E2%29%20a%20x%5E%7B2%7D%3D2a&id=PVE32)的单变量事实)。

简要概括起来:

  • 1.CS229-LinearAlgebra - 图690
  • 1.CS229-LinearAlgebra - 图691 (如果1.CS229-LinearAlgebra - 图692是对称阵)
  • 1.CS229-LinearAlgebra - 图693 (如果1.CS229-LinearAlgebra - 图694是对称阵)

4.4 最小二乘法

让我们应用上一节中得到的方程来推导最小二乘方程。假设我们得到矩阵1.CS229-LinearAlgebra - 图695(为了简单起见,我们假设1.CS229-LinearAlgebra - 图696是满秩)和向量1.CS229-LinearAlgebra - 图697,从而使1.CS229-LinearAlgebra - 图698#card=math&code=b%20%5Cnotin%20%5Cmathcal%7BR%7D%28A%29&id=fAGfm)。在这种情况下,我们将无法找到向量1.CS229-LinearAlgebra - 图699,由于1.CS229-LinearAlgebra - 图700,因此我们想要找到一个向量1.CS229-LinearAlgebra - 图701,使得1.CS229-LinearAlgebra - 图702尽可能接近 1.CS229-LinearAlgebra - 图703,用欧几里德范数的平方$|A x-b|_{2}^{2} $来衡量。

使用公式1.CS229-LinearAlgebra - 图704,我们可以得到:

1.CS229-LinearAlgebra - 图705%5E%7BT%7D(A%20x-b)%20%5C%5C%20%26%3Dx%5E%7BT%7D%20A%5E%7BT%7D%20A%20x-2%20b%5E%7BT%7D%20A%20x%2Bb%5E%7BT%7D%20b%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%5C%7CA%20x-b%5C%7C_%7B2%7D%5E%7B2%7D%20%26%3D%28A%20x-b%29%5E%7BT%7D%28A%20x-b%29%20%5C%5C%20%26%3Dx%5E%7BT%7D%20A%5E%7BT%7D%20A%20x-2%20b%5E%7BT%7D%20A%20x%2Bb%5E%7BT%7D%20b%20%5Cend%7Baligned%7D%0A&id=IncH1)

根据1.CS229-LinearAlgebra - 图706的梯度,并利用上一节中推导的性质:

1.CS229-LinearAlgebra - 图707%20%26%3D%5Cnabla%7Bx%7D%20x%5E%7BT%7D%20A%5E%7BT%7D%20A%20x-%5Cnabla%7Bx%7D%202%20b%5E%7BT%7D%20A%20x%2B%5Cnabla%7Bx%7D%20b%5E%7BT%7D%20b%20%5C%5C%20%26%3D2%20A%5E%7BT%7D%20A%20x-2%20A%5E%7BT%7D%20b%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%20%5Cnabla%7Bx%7D%5Cleft%28x%5E%7BT%7D%20A%5E%7BT%7D%20A%20x-2%20b%5E%7BT%7D%20A%20x%2Bb%5E%7BT%7D%20b%5Cright%29%20%26%3D%5Cnabla%7Bx%7D%20x%5E%7BT%7D%20A%5E%7BT%7D%20A%20x-%5Cnabla%7Bx%7D%202%20b%5E%7BT%7D%20A%20x%2B%5Cnabla_%7Bx%7D%20b%5E%7BT%7D%20b%20%5C%5C%20%26%3D2%20A%5E%7BT%7D%20A%20x-2%20A%5E%7BT%7D%20b%20%5Cend%7Baligned%7D%0A&id=rlaWP)

将最后一个表达式设置为零,然后解出1.CS229-LinearAlgebra - 图708,得到了正规方程:

1.CS229-LinearAlgebra - 图709%5E%7B-1%7DA%5ETb%0A#card=math&code=x%20%3D%20%28A%5ETA%29%5E%7B-1%7DA%5ETb%0A&id=Z8C6A)

这和我们在课堂上得到的相同。

4.5 行列式的梯度

现在让我们考虑一种情况,我们找到一个函数相对于矩阵的梯度,也就是说,对于1.CS229-LinearAlgebra - 图710,我们要找到1.CS229-LinearAlgebra - 图711。回想一下我们对行列式的讨论:

1.CS229-LinearAlgebra - 图712%5E%7Bi%2Bj%7D%20A%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad(%5Ctext%20%7B%20for%20any%20%7D%20j%20%5Cin%201%2C%20%5Cldots%2C%20n)%0A#card=math&code=%7CA%7C%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%28-1%29%5E%7Bi%2Bj%7D%20A%7Bi%20j%7D%5Cleft%7CA_%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad%28%5Ctext%20%7B%20for%20any%20%7D%20j%20%5Cin%201%2C%20%5Cldots%2C%20n%29%0A&id=BjgE2)

所以:

1.CS229-LinearAlgebra - 图713%5E%7Bi%2Bj%7D%20A%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%3D(-1)%5E%7Bk%2B%5Cell%7D%5Cleft%7CA%7B%5Cbackslash%20k%2C%5Cbackslash%20%5Cell%7D%5Cright%7C%3D(%5Coperatorname%7Badj%7D(A))%7B%5Cell%20k%7D%0A#card=math&code=%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20A%7Bk%20%5Cell%7D%7D%7CA%7C%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20A%7Bk%20%5Cell%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%28-1%29%5E%7Bi%2Bj%7D%20A%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%3D%28-1%29%5E%7Bk%2B%5Cell%7D%5Cleft%7CA%7B%5Cbackslash%20k%2C%5Cbackslash%20%5Cell%7D%5Cright%7C%3D%28%5Coperatorname%7Badj%7D%28A%29%29_%7B%5Cell%20k%7D%0A&id=Lc7if)

从这里可以知道,它直接从伴随矩阵的性质得出:

1.CS229-LinearAlgebra - 图714)%5E%7BT%7D%3D%7CA%7C%20A%5E%7B-T%7D%0A#card=math&code=%5Cnabla_%7BA%7D%7CA%7C%3D%28%5Coperatorname%7Badj%7D%28A%29%29%5E%7BT%7D%3D%7CA%7C%20A%5E%7B-T%7D%0A&id=RyxWQ)

现在我们来考虑函数1.CS229-LinearAlgebra - 图7151.CS229-LinearAlgebra - 图716%3D%5Clog%20%7CA%7C#card=math&code=f%28A%29%3D%5Clog%20%7CA%7C&id=NmanQ)。注意,我们必须将1.CS229-LinearAlgebra - 图717的域限制为正定矩阵,因为这确保了1.CS229-LinearAlgebra - 图718,因此1.CS229-LinearAlgebra - 图719的对数是实数。在这种情况下,我们可以使用链式法则(没什么奇怪的,只是单变量演算中的普通链式法则)来看看:

1.CS229-LinearAlgebra - 图720

从这一点可以明显看出:

1.CS229-LinearAlgebra - 图721

我们可以在最后一个表达式中删除转置,因为1.CS229-LinearAlgebra - 图722是对称的。注意与单值情况的相似性,其中1.CS229-LinearAlgebra - 图723%20%5Clog%20x%3D1%20%2F%20x#card=math&code=%5Cpartial%20%2F%28%5Cpartial%20x%29%20%5Clog%20x%3D1%20%2F%20x&id=En5M0)。

4.6 特征值优化

最后,我们使用矩阵演算以直接导致特征值/特征向量分析的方式求解优化问题。 考虑以下等式约束优化问题:

1.CS229-LinearAlgebra - 图724

对于对称矩阵1.CS229-LinearAlgebra - 图725。求解等式约束优化问题的标准方法是采用拉格朗日形式,一种包含等式约束的目标函数,在这种情况下,拉格朗日函数可由以下公式给出:

1.CS229-LinearAlgebra - 图726%3Dx%5E%7BT%7D%20A%20x-%5Clambda%20x%5E%7BT%7D%20x%0A#card=math&code=%5Cmathcal%7BL%7D%28x%2C%20%5Clambda%29%3Dx%5E%7BT%7D%20A%20x-%5Clambda%20x%5E%7BT%7D%20x%0A&id=VWcRg)

其中,1.CS229-LinearAlgebra - 图727被称为与等式约束关联的拉格朗日乘子。可以确定,要使1.CS229-LinearAlgebra - 图728成为问题的最佳点,朗格朗日的梯度必须在1.CS229-LinearAlgebra - 图729处为零(这不是唯一的条件,但它是必需的)。也就是说,

1.CS229-LinearAlgebra - 图730%3D%5Cnabla%7Bx%7D%5Cleft(x%5E%7BT%7D%20A%20x-%5Clambda%20x%5E%7BT%7D%20x%5Cright)%3D2%20A%5E%7BT%7D%20x-2%20%5Clambda%20x%3D0%0A#card=math&code=%5Cnabla%7Bx%7D%20%5Cmathcal%7BL%7D%28x%2C%20%5Clambda%29%3D%5Cnabla_%7Bx%7D%5Cleft%28x%5E%7BT%7D%20A%20x-%5Clambda%20x%5E%7BT%7D%20x%5Cright%29%3D2%20A%5E%7BT%7D%20x-2%20%5Clambda%20x%3D0%0A&id=royRL)

请注意,这只是线性方程1.CS229-LinearAlgebra - 图731。 这表明假设1.CS229-LinearAlgebra - 图732,可能最大化(或最小化)1.CS229-LinearAlgebra - 图733的唯一点是1.CS229-LinearAlgebra - 图734的特征向量。

线性代数和概率论都已经翻译完毕,请关注github的更新,若有修改将在github上更新

欢迎大家提交PR,对语言进行润色。

翻译:黄海广