本文是斯坦福大学CS 229机器学习课程的基础材料,原始文件下载

原文作者:Zico Kolter,修改:Chuong Do, Tengyu Ma

翻译:黄海广
备注:请关注github的更新,线性代数和概率论已经更新完毕。

CS229 机器学习课程复习材料-线性代数

线性代数复习和参考

1. 基础概念和符号

线性代数提供了一种紧凑地表示和操作线性方程组的方法。 例如,以下方程组:

1.CS229-LinearAlgebra - 图1

1.CS229-LinearAlgebra - 图2

这是两个方程和两个变量,正如你从高中代数中所知,你可以找到 1.CS229-LinearAlgebra - 图31.CS229-LinearAlgebra - 图4 的唯一解(除非方程以某种方式退化,例如,如果第二个方程只是第一个的倍数,但在上面的情况下,实际上只有一个唯一解)。 在矩阵表示法中,我们可以更紧凑地表达:

1.CS229-LinearAlgebra - 图5

1.CS229-LinearAlgebra - 图6

我们可以看到,这种形式的线性方程有许多优点(比如明显地节省空间)。

1.1 基本符号

我们使用以下符号:

  • 1.CS229-LinearAlgebra - 图7,表示 1.CS229-LinearAlgebra - 图8 为由实数组成具有1.CS229-LinearAlgebra - 图9行和1.CS229-LinearAlgebra - 图10列的矩阵。

  • 1.CS229-LinearAlgebra - 图11,表示具有1.CS229-LinearAlgebra - 图12个元素的向量。 通常,向量1.CS229-LinearAlgebra - 图13将表示列向量: 即,具有1.CS229-LinearAlgebra - 图14行和1.CS229-LinearAlgebra - 图15列的矩阵。 如果我们想要明确地表示行向量: 具有 1.CS229-LinearAlgebra - 图16 行和1.CS229-LinearAlgebra - 图17列的矩阵 - 我们通常写1.CS229-LinearAlgebra - 图18(这里1.CS229-LinearAlgebra - 图191.CS229-LinearAlgebra - 图20的转置)。

  • 1.CS229-LinearAlgebra - 图21表示向量1.CS229-LinearAlgebra - 图22的第1.CS229-LinearAlgebra - 图23个元素

1.CS229-LinearAlgebra - 图24

  • 我们使用符号 1.CS229-LinearAlgebra - 图25(或1.CS229-LinearAlgebra - 图26,1.CS229-LinearAlgebra - 图27等)来表示第 1.CS229-LinearAlgebra - 图28 行和第1.CS229-LinearAlgebra - 图29列中的 1.CS229-LinearAlgebra - 图30 的元素:

1.CS229-LinearAlgebra - 图31

  • 我们用1.CS229-LinearAlgebra - 图32或者1.CS229-LinearAlgebra - 图33表示矩阵1.CS229-LinearAlgebra - 图34的第1.CS229-LinearAlgebra - 图35列:

1.CS229-LinearAlgebra - 图36

  • 我们用1.CS229-LinearAlgebra - 图37或者1.CS229-LinearAlgebra - 图38表示矩阵1.CS229-LinearAlgebra - 图39的第1.CS229-LinearAlgebra - 图40行:

1.CS229-LinearAlgebra - 图41

  • 在许多情况下,将矩阵视为列向量或行向量的集合非常重要且方便。 通常,在向量而不是标量上操作在数学上(和概念上)更清晰。只要明确定义了符号,用于矩阵的列或行的表示方式并没有通用约定。

2.矩阵乘法

两个矩阵相乘,其中 1.CS229-LinearAlgebra - 图42 and 1.CS229-LinearAlgebra - 图43 ,则:

1.CS229-LinearAlgebra - 图44

其中:

1.CS229-LinearAlgebra - 图45

请注意,为了使矩阵乘积存在,1.CS229-LinearAlgebra - 图46中的列数必须等于1.CS229-LinearAlgebra - 图47中的行数。有很多方法可以查看矩阵乘法,我们将从检查一些特殊情况开始。

2.1 向量-向量乘法

给定两个向量1.CS229-LinearAlgebra - 图48,1.CS229-LinearAlgebra - 图49通常称为向量内积或者点积,结果是个实数

1.CS229-LinearAlgebra - 图50

注意:1.CS229-LinearAlgebra - 图51 始终成立。

给定向量 1.CS229-LinearAlgebra - 图52, 1.CS229-LinearAlgebra - 图53 (他们的维度是否相同都没关系),1.CS229-LinearAlgebra - 图54叫做向量外积 , 当 1.CS229-LinearAlgebra - 图55%7Bij%7D%20%3D%20x_iy_j#card=math&code=%28xy%5ET%29%7Bij%7D%20%3D%20x_iy_j) 的时候,它是一个矩阵。

1.CS229-LinearAlgebra - 图56

举一个外积如何使用的一个例子:让1.CS229-LinearAlgebra - 图57表示一个1.CS229-LinearAlgebra - 图58维向量,其元素都等于1,此外,考虑矩阵1.CS229-LinearAlgebra - 图59,其列全部等于某个向量 1.CS229-LinearAlgebra - 图60。 我们可以使用外积紧凑地表示矩阵 1.CS229-LinearAlgebra - 图61:

1.CS229-LinearAlgebra - 图62

2.2 矩阵-向量乘法

给定矩阵 1.CS229-LinearAlgebra - 图63,向量 1.CS229-LinearAlgebra - 图64 , 它们的积是一个向量 1.CS229-LinearAlgebra - 图65。 有几种方法可以查看矩阵向量乘法,我们将依次查看它们中的每一种。

如果我们按行写1.CS229-LinearAlgebra - 图66,那么我们可以表示1.CS229-LinearAlgebra - 图67为:

1.CS229-LinearAlgebra - 图68

换句话说,第1.CS229-LinearAlgebra - 图691.CS229-LinearAlgebra - 图701.CS229-LinearAlgebra - 图71的第1.CS229-LinearAlgebra - 图72行和1.CS229-LinearAlgebra - 图73的内积,即:1.CS229-LinearAlgebra - 图74

同样的, 可以把 1.CS229-LinearAlgebra - 图75 写成列的方式,则公式如下:

1.CS229-LinearAlgebra - 图76

换句话说,1.CS229-LinearAlgebra - 图771.CS229-LinearAlgebra - 图78的列的线性组合,其中线性组合的系数由1.CS229-LinearAlgebra - 图79的元素给出。

到目前为止,我们一直在右侧乘以列向量,但也可以在左侧乘以行向量。 这是写的,1.CS229-LinearAlgebra - 图80 表示1.CS229-LinearAlgebra - 图811.CS229-LinearAlgebra - 图821.CS229-LinearAlgebra - 图83。 和以前一样,我们可以用两种可行的方式表达1.CS229-LinearAlgebra - 图84,这取决于我们是否根据行或列表达1.CS229-LinearAlgebra - 图85.

第一种情况,我们把1.CS229-LinearAlgebra - 图86用列表示:

1.CS229-LinearAlgebra - 图87

这表明1.CS229-LinearAlgebra - 图88的第1.CS229-LinearAlgebra - 图89个元素等于1.CS229-LinearAlgebra - 图901.CS229-LinearAlgebra - 图91的第1.CS229-LinearAlgebra - 图92列的内积。

最后,根据行表示1.CS229-LinearAlgebra - 图93,我们得到了向量-矩阵乘积的最终表示:

1.CS229-LinearAlgebra - 图94

所以我们看到1.CS229-LinearAlgebra - 图951.CS229-LinearAlgebra - 图96的行的线性组合,其中线性组合的系数由1.CS229-LinearAlgebra - 图97的元素给出。

2.3 矩阵-矩阵乘法

有了这些知识,我们现在可以看看四种不同的(形式不同,但结果是相同的)矩阵-矩阵乘法:也就是本节开头所定义的1.CS229-LinearAlgebra - 图98的乘法。

首先,我们可以将矩阵 - 矩阵乘法视为一组向量-向量乘积。 从定义中可以得出:最明显的观点是$C 1.CS229-LinearAlgebra - 图99( i,j )1.CS229-LinearAlgebra - 图100A1.CS229-LinearAlgebra - 图101i1.CS229-LinearAlgebra - 图102B1.CS229-LinearAlgebra - 图103j$列的内积。如下面的公式所示:

1.CS229-LinearAlgebra - 图104

这里的$ A \in \mathbb{R}^{m\times n}$ ,1.CS229-LinearAlgebra - 图1051.CS229-LinearAlgebra - 图1061.CS229-LinearAlgebra - 图107, 这里的$ A \in \mathbb{R}^ {m \times n},$ $B \in \mathbb{R}^ {n \times p} $, $a_i \in \mathbb{R} ^ n 1.CS229-LinearAlgebra - 图108 b ^ j \in \mathbb{R} ^ {n \times p} 1.CS229-LinearAlgebra - 图109 A 1.CS229-LinearAlgebra - 图110B1.CS229-LinearAlgebra - 图111 A1.CS229-LinearAlgebra - 图112B 1.CS229-LinearAlgebra - 图113AB$是求外积的和。公式如下:

1.CS229-LinearAlgebra - 图114

换句话说,1.CS229-LinearAlgebra - 图115等于所有的1.CS229-LinearAlgebra - 图116的第1.CS229-LinearAlgebra - 图117列和1.CS229-LinearAlgebra - 图1181.CS229-LinearAlgebra - 图119行的外积的和。因此,在这种情况下, $a_i \in \mathbb{R}^ m 1.CS229-LinearAlgebra - 图120b_i \in \mathbb{R}^p1.CS229-LinearAlgebra - 图121aT1.CS229-LinearAlgebra - 图122m×p1.CS229-LinearAlgebra - 图123C$的维度一致。

其次,我们还可以将矩阵 - 矩阵乘法视为一组矩阵向量积。如果我们把1.CS229-LinearAlgebra - 图124用列表示,我们可以将1.CS229-LinearAlgebra - 图125的列视为1.CS229-LinearAlgebra - 图1261.CS229-LinearAlgebra - 图127的列的矩阵向量积。公式如下:

1.CS229-LinearAlgebra - 图128

这里1.CS229-LinearAlgebra - 图129的第1.CS229-LinearAlgebra - 图130列由矩阵向量乘积给出,右边的向量为1.CS229-LinearAlgebra - 图131。 这些矩阵向量乘积可以使用前一小节中给出的两个观点来解释。
最后,我们有类似的观点,我们用行表示1.CS229-LinearAlgebra - 图1321.CS229-LinearAlgebra - 图133的行作为1.CS229-LinearAlgebra - 图1341.CS229-LinearAlgebra - 图135行之间的矩阵向量积。公式如下:

1.CS229-LinearAlgebra - 图136

这里第1.CS229-LinearAlgebra - 图137行的1.CS229-LinearAlgebra - 图138由左边的向量的矩阵向量乘积给出:1.CS229-LinearAlgebra - 图139

将矩阵乘法剖析到如此大的程度似乎有点过分,特别是当所有这些观点都紧跟在我们在本节开头给出的初始定义(在一行数学中)之后。

这些不同方法的直接优势在于它们允许您在向量的级别/单位而不是标量上进行操作。 为了完全理解线性代数而不会迷失在复杂的索引操作中,关键是要用尽可能多的概念进行操作。

实际上所有的线性代数都处理某种矩阵乘法,花一些时间对这里提出的观点进行直观的理解是非常必要的。

除此之外,了解一些更高级别的矩阵乘法的基本属性是很有必要的:

  • 矩阵乘法结合律: 1.CS229-LinearAlgebra - 图140C%20%3D%20A(BC)#card=math&code=%28AB%29C%20%3D%20A%28BC%29)

  • 矩阵乘法分配律: 1.CS229-LinearAlgebra - 图141%20%3D%20AB%20%2B%20AC#card=math&code=A%28B%20%2B%20C%29%20%3D%20AB%20%2B%20AC)

  • 矩阵乘法通常不是可交换的; 也就是说,通常1.CS229-LinearAlgebra - 图142。 (例如,假设$ A \in \mathbb{R}^ {m \times n},$ $B \in \mathbb{R}^ {n \times p} 1.CS229-LinearAlgebra - 图143m1.CS229-LinearAlgebra - 图144q1.CS229-LinearAlgebra - 图145BA$甚至不存在!)

如果您不熟悉这些属性,请花点时间自己验证它们。 例如,为了检查矩阵乘法的相关性,假设1.CS229-LinearAlgebra - 图146 $B \in \mathbb{R}^ {n \times p} 1.CS229-LinearAlgebra - 图147C \in \mathbb{R}^ {p \times q}1.CS229-LinearAlgebra - 图148AB \in \mathbb{R}^ {m \times p}1.CS229-LinearAlgebra - 图149(AB)C \in \mathbb{R}^ {m \times q}1.CS229-LinearAlgebra - 图150BC \in \mathbb{R}^ {n \times q}1.CS229-LinearAlgebra - 图151A(BC) \in \mathbb{R}^ {m \times q}1.CS229-LinearAlgebra - 图152(AB)C 1.CS229-LinearAlgebra - 图153(i,j)1.CS229-LinearAlgebra - 图154A(BC)1.CS229-LinearAlgebra - 图155(i,j)$个元素。 我们可以使用矩阵乘法的定义直接验证这一点:

1.CS229-LinearAlgebra - 图156%20C)%7Bi%20j%7D%20%26%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D(A%20B)%7Bi%20k%7D%20C%7Bk%20j%7D%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D%5Cleft(%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%5Cright)%20C%7Bk%20j%7D%20%5C%5C%20%26%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D%5Cleft(%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright)%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%5Cleft(%5Csum%7Bk%3D1%7D%5E%7Bp%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright)%20%5C%5C%20%26%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%5Cleft(%5Csum%7Bk%3D1%7D%5E%7Bp%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright)%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D(B%20C)%7Bl%20j%7D%3D(A(B%20C))%7Bi%20j%7D%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%28%28A%20B%29%20C%29%7Bi%20j%7D%20%26%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D%28A%20B%29%7Bi%20k%7D%20C%7Bk%20j%7D%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D%5Cleft%28%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%5Cright%29%20C%7Bk%20j%7D%20%5C%5C%20%26%3D%5Csum%7Bk%3D1%7D%5E%7Bp%7D%5Cleft%28%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright%29%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%5Cleft%28%5Csum%7Bk%3D1%7D%5E%7Bp%7D%20A%7Bi%20l%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright%29%20%5C%5C%20%26%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%5Cleft%28%5Csum%7Bk%3D1%7D%5E%7Bp%7D%20B%7Bl%20k%7D%20C%7Bk%20j%7D%5Cright%29%3D%5Csum%7Bl%3D1%7D%5E%7Bn%7D%20A%7Bi%20l%7D%28B%20C%29%7Bl%20j%7D%3D%28A%28B%20C%29%29%7Bi%20j%7D%20%5Cend%7Baligned%7D%0A)

3 运算和属性

在本节中,我们介绍矩阵和向量的几种运算和属性。 希望能够为您复习大量此类内容,这些笔记可以作为这些主题的参考。

3.1 单位矩阵和对角矩阵

单位矩阵,$I \in \mathbb{R}^{n \times n} $,它是一个方阵,对角线的元素是1,其余元素都是0:

1.CS229-LinearAlgebra - 图157

对于所有1.CS229-LinearAlgebra - 图158,有:

1.CS229-LinearAlgebra - 图159

注意,在某种意义上,单位矩阵的表示法是不明确的,因为它没有指定1.CS229-LinearAlgebra - 图160的维数。通常,1.CS229-LinearAlgebra - 图161的维数是从上下文推断出来的,以便使矩阵乘法成为可能。 例如,在上面的等式中,1.CS229-LinearAlgebra - 图162中的I是1.CS229-LinearAlgebra - 图163矩阵,而1.CS229-LinearAlgebra - 图164中的1.CS229-LinearAlgebra - 图1651.CS229-LinearAlgebra - 图166矩阵。

对角矩阵是一种这样的矩阵:对角线之外的元素全为0。对角阵通常表示为:1.CS229-LinearAlgebra - 图167#card=math&code=D%3D%20diag%28d_1%2C%20d_2%2C%20.%20.%20.%20%2C%20d_n%29),其中:

1.CS229-LinearAlgebra - 图168

很明显:单位矩阵$ I = diag(1, 1, . . . , 1)$。

3.2 转置

矩阵的转置是指翻转矩阵的行和列。

给定一个矩阵:

1.CS229-LinearAlgebra - 图169, 它的转置为1.CS229-LinearAlgebra - 图170的矩阵1.CS229-LinearAlgebra - 图171 ,其中的元素为:

1.CS229-LinearAlgebra - 图172%7Bij%7D%20%3D%20A%7Bji%7D%0A#card=math&code=%28A%5ET%29%7Bij%7D%20%3D%20A%7Bji%7D%0A)

事实上,我们在描述行向量时已经使用了转置,因为列向量的转置自然是行向量。

转置的以下属性很容易验证:

  • 1.CS229-LinearAlgebra - 图173%5ET%20%3D%20A#card=math&code=%28A%5ET%20%29%5ET%20%3D%20A)
  • $ (AB)^T = B^T A^T$
  • 1.CS229-LinearAlgebra - 图174%5ET%20%3D%20A%5ET%20%2B%20B%5ET#card=math&code=%28A%20%2B%20B%29%5ET%20%3D%20A%5ET%20%2B%20B%5ET)

3.3 对称矩阵

如果1.CS229-LinearAlgebra - 图175,则矩阵1.CS229-LinearAlgebra - 图176是对称矩阵。 如果$ A = - A^T1.CS229-LinearAlgebra - 图177A \in \mathbb{R}^ {n \times n}1.CS229-LinearAlgebra - 图178A + A^ T1.CS229-LinearAlgebra - 图179A -A^T1.CS229-LinearAlgebra - 图180A \in \mathbb{R}^ {n \times n}$可以表示为对称矩阵和反对称矩阵的和,所以:

1.CS229-LinearAlgebra - 图181%2B%5Cfrac%7B1%7D%7B2%7D(A-A%5ET)%0A#card=math&code=A%3D%5Cfrac%7B1%7D%7B2%7D%28A%2BA%5ET%29%2B%5Cfrac%7B1%7D%7B2%7D%28A-A%5ET%29%0A)

上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中用到很多,它们有很多很好的属性,我们很快就会看到它们。
通常将大小为1.CS229-LinearAlgebra - 图182的所有对称矩阵的集合表示为1.CS229-LinearAlgebra - 图183,因此1.CS229-LinearAlgebra - 图184意味着1.CS229-LinearAlgebra - 图185是对称的1.CS229-LinearAlgebra - 图186矩阵;

3.4 矩阵的迹

方矩阵1.CS229-LinearAlgebra - 图187的迹,表示为1.CS229-LinearAlgebra - 图188#card=math&code=%5Coperatorname%7Btr%7D%20%28A%29)(或者只是1.CS229-LinearAlgebra - 图189,如果括号显然是隐含的),是矩阵中对角元素的总和:

1.CS229-LinearAlgebra - 图190

CS229讲义中所述,迹具有以下属性(如下所示):

  • 对于矩阵1.CS229-LinearAlgebra - 图191,则:1.CS229-LinearAlgebra - 图192

  • 对于矩阵1.CS229-LinearAlgebra - 图193,则:1.CS229-LinearAlgebra - 图194%20%3D%20%5Coperatorname%7Btr%7DA%20%2B%20%5Coperatorname%7Btr%7DB#card=math&code=%5Coperatorname%7Btr%7D%28A%20%2B%20B%29%20%3D%20%5Coperatorname%7Btr%7DA%20%2B%20%5Coperatorname%7Btr%7DB)

  • 对于矩阵1.CS229-LinearAlgebra - 图195,$ t \in \mathbb{R}1.CS229-LinearAlgebra - 图196\operatorname{tr}(tA) = t\operatorname{tr}A$.

  • 对于矩阵 1.CS229-LinearAlgebra - 图197, 1.CS229-LinearAlgebra - 图1981.CS229-LinearAlgebra - 图199 为方阵, 则:1.CS229-LinearAlgebra - 图200

  • 对于矩阵 1.CS229-LinearAlgebra - 图201, 1.CS229-LinearAlgebra - 图202, 1.CS229-LinearAlgebra - 图203, 1.CS229-LinearAlgebra - 图204为方阵, 则:1.CS229-LinearAlgebra - 图205, 同理,更多矩阵的积也是有这个性质。

作为如何证明这些属性的示例,我们将考虑上面给出的第四个属性。 假设1.CS229-LinearAlgebra - 图2061.CS229-LinearAlgebra - 图207(因此1.CS229-LinearAlgebra - 图208是方阵)。 观察到1.CS229-LinearAlgebra - 图209也是一个方阵,因此对它们进行迹的运算是有意义的。 要证明1.CS229-LinearAlgebra - 图210,请注意:

1.CS229-LinearAlgebra - 图211%7Bi%20i%7D%3D%5Csum%7Bi%3D1%7D%5E%7Bm%7D%5Cleft(%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20B%7Bj%20i%7D%5Cright)%20%5C%5C%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20B%7Bj%20i%7D%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20B%7Bj%20i%7D%20A%7Bi%20j%7D%20%5C%5C%20%26%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%5Cleft(%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20B%7Bj%20i%7D%20A%7Bi%20j%7D%5Cright)%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D(B%20A)%7Bj%20j%7D%3D%5Coperatorname%7Btr%7D%20B%20A%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%20%5Coperatorname%7Btr%7D%20A%20B%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bm%7D%28A%20B%29%7Bi%20i%7D%3D%5Csum%7Bi%3D1%7D%5E%7Bm%7D%5Cleft%28%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20B%7Bj%20i%7D%5Cright%29%20%5C%5C%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20B%7Bj%20i%7D%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20B%7Bj%20i%7D%20A%7Bi%20j%7D%20%5C%5C%20%26%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%5Cleft%28%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20B%7Bj%20i%7D%20A%7Bi%20j%7D%5Cright%29%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%28B%20A%29_%7Bj%20j%7D%3D%5Coperatorname%7Btr%7D%20B%20A%20%5Cend%7Baligned%7D%0A)

这里,第一个和最后两个等式使用迹运算符和矩阵乘法的定义,重点在第四个等式,使用标量乘法的可交换性来反转每个乘积中的项的顺序,以及标量加法的可交换性和相关性,以便重新排列求和的顺序。

3.5 范数

向量的范数1.CS229-LinearAlgebra - 图212是非正式度量的向量的“长度” 。 例如,我们有常用的欧几里德或1.CS229-LinearAlgebra - 图213范数,

1.CS229-LinearAlgebra - 图214

注意:1.CS229-LinearAlgebra - 图215

更正式地,范数是满足4个属性的函数(1.CS229-LinearAlgebra - 图216):

  1. 对于所有的 1.CS229-LinearAlgebra - 图217, $f(x) \geq 0 $(非负).
  2. 当且仅当1.CS229-LinearAlgebra - 图218 时,1.CS229-LinearAlgebra - 图219%20%3D%200#card=math&code=f%28x%29%20%3D%200) (明确性).
  3. 对于所有1.CS229-LinearAlgebra - 图220,1.CS229-LinearAlgebra - 图221,则 1.CS229-LinearAlgebra - 图222%20%3D%20%5Cleft%7C%20t%20%5Cright%7Cf(x)#card=math&code=f%28tx%29%20%3D%20%5Cleft%7C%20t%20%5Cright%7Cf%28x%29) (正齐次性).
  4. 对于所有 1.CS229-LinearAlgebra - 图223, 1.CS229-LinearAlgebra - 图224%20%5Cleq%20f(x)%20%2B%20f(y)#card=math&code=f%28x%20%2B%20y%29%20%5Cleq%20f%28x%29%20%2B%20f%28y%29) (三角不等式)

其他范数的例子是1.CS229-LinearAlgebra - 图225范数:

1.CS229-LinearAlgebra - 图226

1.CS229-LinearAlgebra - 图227范数:

1.CS229-LinearAlgebra - 图228

事实上,到目前为止所提出的所有三个范数都是1.CS229-LinearAlgebra - 图229范数族的例子,它们由实数1.CS229-LinearAlgebra - 图230参数化,并定义为:

1.CS229-LinearAlgebra - 图231%5E%7B1%20%2F%20p%7D%0A#card=math&code=%5C%7Cx%5C%7C%7Bp%7D%3D%5Cleft%28%5Csum%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%7Cx_%7Bi%7D%5Cright%7C%5E%7Bp%7D%5Cright%29%5E%7B1%20%2F%20p%7D%0A)

也可以为矩阵定义范数,例如Frobenius范数:

1.CS229-LinearAlgebra - 图232%7D%0A#card=math&code=%5C%7CA%5C%7C%7BF%7D%3D%5Csqrt%7B%5Csum%7Bi%3D1%7D%5E%7Bm%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%5E%7B2%7D%7D%3D%5Csqrt%7B%5Coperatorname%7Btr%7D%5Cleft%28A%5E%7BT%7D%20A%5Cright%29%7D%0A)

许多其他更多的范数,但它们超出了这个复习材料的范围。

3.6 线性相关性和秩

一组向量1.CS229-LinearAlgebra - 图233, 如果没有向量可以表示为其余向量的线性组合,则称称该向量是线性无相关的。 相反,如果属于该组的一个向量可以表示为其余向量的线性组合,则称该向量是线性相关的。 也就是说,如果:

1.CS229-LinearAlgebra - 图234

对于某些标量值1.CS229-LinearAlgebra - 图235,要么向量1.CS229-LinearAlgebra - 图236是线性相关的; 否则,向量是线性无关的。 例如,向量:

1.CS229-LinearAlgebra - 图237

是线性相关的,因为:1.CS229-LinearAlgebra - 图238

矩阵1.CS229-LinearAlgebra - 图239列秩是构成线性无关集合的1.CS229-LinearAlgebra - 图240的最大列子集的大小。 由于术语的多样性,这通常简称为1.CS229-LinearAlgebra - 图241的线性无关列的数量。同样,行秩是构成线性无关集合的1.CS229-LinearAlgebra - 图242的最大行数。 对于任何矩阵1.CS229-LinearAlgebra - 图243,事实证明1.CS229-LinearAlgebra - 图244的列秩等于1.CS229-LinearAlgebra - 图245的行秩(尽管我们不会证明这一点),因此两个量统称为1.CS229-LinearAlgebra - 图246,用 1.CS229-LinearAlgebra - 图247#card=math&code=%5Ctext%7Brank%7D%28A%29)表示。 以下是秩的一些基本属性:

  • 对于 1.CS229-LinearAlgebra - 图2481.CS229-LinearAlgebra - 图249%20%5Cleq%20min(m%2C%20n)#card=math&code=%5Ctext%7Brank%7D%28A%29%20%5Cleq%20min%28m%2C%20n%29),如果$ \text(A) = \text{min} (m, n)$,则: 1.CS229-LinearAlgebra - 图250 被称作满秩
  • 对于 1.CS229-LinearAlgebra - 图2511.CS229-LinearAlgebra - 图252%20%3D%20%5Ctext%7Brank%7D(A%5ET)#card=math&code=%5Ctext%7Brank%7D%28A%29%20%3D%20%5Ctext%7Brank%7D%28A%5ET%29)
  • 对于 1.CS229-LinearAlgebra - 图253,1.CS229-LinearAlgebra - 图254 ,1.CS229-LinearAlgebra - 图255%20%5Cleq%20%5Ctext%7Bmin%7D%20(%20%5Ctext%7Brank%7D(A)%2C%20%5Ctext%7Brank%7D(B))#card=math&code=%5Ctext%7Brank%7D%28AB%29%20%5Cleq%20%5Ctext%7Bmin%7D%20%28%20%5Ctext%7Brank%7D%28A%29%2C%20%5Ctext%7Brank%7D%28B%29%29)
  • 对于 1.CS229-LinearAlgebra - 图2561.CS229-LinearAlgebra - 图257%20%5Cleq%20%5Ctext%7Brank%7D(A)%20%2B%20%5Ctext%7Brank%7D(B)#card=math&code=%5Ctext%7Brank%7D%28A%20%2B%20B%29%20%5Cleq%20%5Ctext%7Brank%7D%28A%29%20%2B%20%5Ctext%7Brank%7D%28B%29)

3.7 方阵的逆

方阵1.CS229-LinearAlgebra - 图258的倒数表示为1.CS229-LinearAlgebra - 图259,并且是这样的独特矩阵:

1.CS229-LinearAlgebra - 图260

请注意,并非所有矩阵都具有逆。 例如,非方形矩阵根据定义没有逆。 然而,对于一些方形矩阵1.CS229-LinearAlgebra - 图261,可能仍然存在1.CS229-LinearAlgebra - 图262可能不存在的情况。 特别是,如果1.CS229-LinearAlgebra - 图263存在,我们说1.CS229-LinearAlgebra - 图264可逆的或非奇异的,否则就是不可逆奇异的。
为了使方阵A具有逆1.CS229-LinearAlgebra - 图265,则1.CS229-LinearAlgebra - 图266必须是满秩。 我们很快就会发现,除了满秩之外,还有许多其它的充分必要条件。
以下是逆的属性; 假设1.CS229-LinearAlgebra - 图267,而且是非奇异的:

  • 1.CS229-LinearAlgebra - 图268%5E%7B-1%7D%20%3D%20A#card=math&code=%28A%5E%7B-1%7D%29%5E%7B-1%7D%20%3D%20A)
  • 1.CS229-LinearAlgebra - 图269%5E%7B-1%7D%20%3D%20B%5E%7B-1%7DA%5E%7B-1%7D#card=math&code=%28AB%29%5E%7B-1%7D%20%3D%20B%5E%7B-1%7DA%5E%7B-1%7D)
  • $(A{T} =(A{-1} 1.CS229-LinearAlgebra - 图270A^{-T}1.CS229-LinearAlgebra - 图271Ax = b1.CS229-LinearAlgebra - 图272A \in \mathbb{R}^{n \times n}1.CS229-LinearAlgebra - 图273x,b\in \mathbb{R}1.CS229-LinearAlgebra - 图274A1.CS229-LinearAlgebra - 图275x = A^{-1}b1.CS229-LinearAlgebra - 图276A \in \mathbb{R}^{m \times n}$不是方阵,这公式还有用吗?)

3.8 正交阵

如果 1.CS229-LinearAlgebra - 图277,则两个向量1.CS229-LinearAlgebra - 图278正交的。如果1.CS229-LinearAlgebra - 图279,则向量1.CS229-LinearAlgebra - 图280 被归一化。如果一个方阵1.CS229-LinearAlgebra - 图281的所有列彼此正交并被归一化(这些列然后被称为正交),则方阵1.CS229-LinearAlgebra - 图282是正交阵(注意在讨论向量时的意义不一样)。

它可以从正交性和正态性的定义中得出:

1.CS229-LinearAlgebra - 图283

换句话说,正交矩阵的逆是其转置。 注意,如果1.CS229-LinearAlgebra - 图284不是方阵 :即,1.CS229-LinearAlgebra - 图2851.CS229-LinearAlgebra - 图286 ,但其列仍然是正交的,则1.CS229-LinearAlgebra - 图287,但是1.CS229-LinearAlgebra - 图288。我们通常只使用术语”正交”来描述先前的情况 ,其中1.CS229-LinearAlgebra - 图289是方阵。
正交矩阵的另一个好的特性是在具有正交矩阵的向量上操作不会改变其欧几里德范数,即:

1.CS229-LinearAlgebra - 图290

对于任何 1.CS229-LinearAlgebra - 图291 , 1.CS229-LinearAlgebra - 图292是正交的。

3.9 矩阵的值域和零空间

一组向量1.CS229-LinearAlgebra - 图293是可以表示为1.CS229-LinearAlgebra - 图294的线性组合的所有向量的集合。 即:

1.CS229-LinearAlgebra - 图295%3D%5Cleft%5C%7Bv%20%3A%20v%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Calpha%7Bi%7D%20x%7Bi%7D%2C%20%5Cquad%20%5Calpha%7Bi%7D%20%5Cin%20%5Cmathbb%7BR%7D%5Cright%5C%7D%0A#card=math&code=%5Coperatorname%7Bspan%7D%5Cleft%28%5Cleft%5C%7Bx%7B1%7D%2C%20%5Cldots%20x%7Bn%7D%5Cright%5C%7D%5Cright%29%3D%5Cleft%5C%7Bv%20%3A%20v%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Calpha%7Bi%7D%20x%7Bi%7D%2C%20%5Cquad%20%5Calpha%7Bi%7D%20%5Cin%20%5Cmathbb%7BR%7D%5Cright%5C%7D%0A)

可以证明,如果1.CS229-LinearAlgebra - 图296是一组1.CS229-LinearAlgebra - 图297个线性无关的向量,其中每个1.CS229-LinearAlgebra - 图298,则1.CS229-LinearAlgebra - 图299%3D%5Cmathbb%7BR%7D%5E%7Bn%7D#card=math&code=%5Ctext%7Bspan%7D%28%5C%7Bx%7B1%7D%2C%20%5Cldots%20x%7Bn%7D%5C%7D%29%3D%5Cmathbb%7BR%7D%5E%7Bn%7D)。 换句话说,任何向量1.CS229-LinearAlgebra - 图300都可以写成1.CS229-LinearAlgebra - 图3011.CS229-LinearAlgebra - 图302的线性组合。

向量1.CS229-LinearAlgebra - 图303投影到1.CS229-LinearAlgebra - 图304(这里我们假设1.CS229-LinearAlgebra - 图305)得到向量1.CS229-LinearAlgebra - 图306#card=math&code=v%20%5Cin%20%5Coperatorname%7Bspan%7D%28%5C%7Bx%7B1%7D%2C%20%5Cldots%2C%20x%7Bn%7D%5C%7D%29),由欧几里德范数1.CS229-LinearAlgebra - 图307可以得知,这样1.CS229-LinearAlgebra - 图308尽可能接近1.CS229-LinearAlgebra - 图309

我们将投影表示为1.CS229-LinearAlgebra - 图310#card=math&code=%5Coperatorname%7BProj%7D%5Cleft%28y%20%3B%5Cleft%5C%7Bx%7B1%7D%2C%20%5Cldots%20x%7Bn%7D%5Cright%5C%7D%5Cright%29),并且可以将其正式定义为:

1.CS229-LinearAlgebra - 图311%3D%5Coperatorname%7Bargmin%7D%7Bv%20%5Cin%20%5Coperatorname%7Bspan%7D%5Cleft(%5Cleft%5C%7Bx%7B1%7D%2C%20%5Cldots%2C%20x%7Bn%7D%5Cright%5C%7D%5Cright)%7D%5C%7Cy-v%5C%7C%7B2%7D%0A#card=math&code=%5Coperatorname%7BProj%7D%5Cleft%28y%20%3B%5Cleft%5C%7Bx%7B1%7D%2C%20%5Cldots%20x%7Bn%7D%5Cright%5C%7D%5Cright%29%3D%5Coperatorname%7Bargmin%7D%7Bv%20%5Cin%20%5Coperatorname%7Bspan%7D%5Cleft%28%5Cleft%5C%7Bx%7B1%7D%2C%20%5Cldots%2C%20x%7Bn%7D%5Cright%5C%7D%5Cright%29%7D%5C%7Cy-v%5C%7C%7B2%7D%0A)

矩阵1.CS229-LinearAlgebra - 图312的值域(有时也称为列空间),表示为1.CS229-LinearAlgebra - 图313#card=math&code=%5Cmathcal%7BR%7D%28A%29),是1.CS229-LinearAlgebra - 图314列的跨度。换句话说,

1.CS229-LinearAlgebra - 图315%3D%5Cleft%5C%7Bv%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%7D%20%3A%20v%3DA%20x%2C%20x%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%5Cright%5C%7D%0A#card=math&code=%5Cmathcal%7BR%7D%28A%29%3D%5Cleft%5C%7Bv%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%7D%20%3A%20v%3DA%20x%2C%20x%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%5Cright%5C%7D%0A)

做一些技术性的假设(即1.CS229-LinearAlgebra - 图316是满秩且1.CS229-LinearAlgebra - 图317),向量1.CS229-LinearAlgebra - 图3181.CS229-LinearAlgebra - 图319的范围的投影由下式给出:

1.CS229-LinearAlgebra - 图320%3D%5Coperatorname%7Bargmin%7D%7Bv%20%5Cin%20%5Cmathcal%7BR%7D(A)%7D%5C%7Cv-y%5C%7C%7B2%7D%3DA%5Cleft(A%5E%7BT%7D%20A%5Cright)%5E%7B-1%7D%20A%5E%7BT%7D%20y%0A#card=math&code=%5Coperatorname%7BProj%7D%28y%20%3B%20A%29%3D%5Coperatorname%7Bargmin%7D%7Bv%20%5Cin%20%5Cmathcal%7BR%7D%28A%29%7D%5C%7Cv-y%5C%7C%7B2%7D%3DA%5Cleft%28A%5E%7BT%7D%20A%5Cright%29%5E%7B-1%7D%20A%5E%7BT%7D%20y%0A)

这个最后的方程应该看起来非常熟悉,因为它几乎与我们在课程中(我们将很快再次得出)得到的公式:用于参数的最小二乘估计一样。 看一下投影的定义,显而易见,这实际上是我们在最小二乘问题中最小化的目标(除了范数的平方这里有点不一样,这不会影响找到最优解),所以这些问题自然是非常相关的。

1.CS229-LinearAlgebra - 图321只包含一列时,1.CS229-LinearAlgebra - 图322,这给出了向量投影到一条线上的特殊情况:

1.CS229-LinearAlgebra - 图323%3D%5Cfrac%7Ba%20a%5E%7BT%7D%7D%7Ba%5E%7BT%7D%20a%7D%20y%0A#card=math&code=%5Coperatorname%7BProj%7D%28y%20%3B%20a%29%3D%5Cfrac%7Ba%20a%5E%7BT%7D%7D%7Ba%5E%7BT%7D%20a%7D%20y%0A)

一个矩阵1.CS229-LinearAlgebra - 图324的零空间 1.CS229-LinearAlgebra - 图325#card=math&code=%5Cmathcal%7BN%7D%28A%29) 是所有乘以1.CS229-LinearAlgebra - 图326时等于0向量的集合,即:

1.CS229-LinearAlgebra - 图327%3D%5Cleft%5C%7Bx%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%20%3A%20A%20x%3D0%5Cright%5C%7D%0A#card=math&code=%5Cmathcal%7BN%7D%28A%29%3D%5Cleft%5C%7Bx%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%20%3A%20A%20x%3D0%5Cright%5C%7D%0A)

注意,1.CS229-LinearAlgebra - 图328#card=math&code=%5Cmathcal%7BR%7D%28A%29)中的向量的大小为1.CS229-LinearAlgebra - 图329,而 1.CS229-LinearAlgebra - 图330#card=math&code=%5Cmathcal%7BN%7D%28A%29) 中的向量的大小为1.CS229-LinearAlgebra - 图331,因此1.CS229-LinearAlgebra - 图332#card=math&code=%5Cmathcal%7BR%7D%28A%5ET%29)和 1.CS229-LinearAlgebra - 图333#card=math&code=%5Cmathcal%7BN%7D%28A%29) 中的向量的大小均为1.CS229-LinearAlgebra - 图334。 事实上,还有很多例子。 证明:

1.CS229-LinearAlgebra - 图335%2C%20v%20%5Cin%20%5Cmathcal%7BN%7D(A)%5Cright%5C%7D%3D%5Cmathbb%7BR%7D%5E%7Bn%7D%20%5Ctext%20%7B%20and%20%7D%20%5Cmathcal%7BR%7D%5Cleft(A%5E%7BT%7D%5Cright)%20%5Ccap%20%5Cmathcal%7BN%7D(A)%3D%5C%7B%5Cmathbf%7B0%7D%5C%7D%0A#card=math&code=%5Cleft%5C%7Bw%20%3A%20w%3Du%2Bv%2C%20u%20%5Cin%20%5Cmathcal%7BR%7D%5Cleft%28A%5E%7BT%7D%5Cright%29%2C%20v%20%5Cin%20%5Cmathcal%7BN%7D%28A%29%5Cright%5C%7D%3D%5Cmathbb%7BR%7D%5E%7Bn%7D%20%5Ctext%20%7B%20and%20%7D%20%5Cmathcal%7BR%7D%5Cleft%28A%5E%7BT%7D%5Cright%29%20%5Ccap%20%5Cmathcal%7BN%7D%28A%29%3D%5C%7B%5Cmathbf%7B0%7D%5C%7D%0A)

换句话说,1.CS229-LinearAlgebra - 图336#card=math&code=%5Cmathcal%7BR%7D%28A%5ET%29)和 1.CS229-LinearAlgebra - 图337#card=math&code=%5Cmathcal%7BN%7D%28A%29) 是不相交的子集,它们一起跨越1.CS229-LinearAlgebra - 图338的整个空间。 这种类型的集合称为正交补,我们用1.CS229-LinearAlgebra - 图339%3D%20%5Cmathcal%7BN%7D(A)%5E%7B%5Cperp%7D#card=math&code=%5Cmathcal%7BR%7D%28A%5ET%29%3D%20%5Cmathcal%7BN%7D%28A%29%5E%7B%5Cperp%7D)表示。

3.10 行列式

一个方阵1.CS229-LinearAlgebra - 图340的行列式是函数1.CS229-LinearAlgebra - 图341:$\mathbb{R}^{n \times n} \rightarrow \mathbb{R}^{n} 1.CS229-LinearAlgebra - 图342\left| A \right|1.CS229-LinearAlgebra - 图343\text{det} A1.CS229-LinearAlgebra - 图344A$行列式的显式公式。 因此,我们首先提供行列式的几何解释,然后探讨它的一些特定的代数性质。

给定一个矩阵:

1.CS229-LinearAlgebra - 图345

考虑通过采用1.CS229-LinearAlgebra - 图346行向量1.CS229-LinearAlgebra - 图347的所有可能线性组合形成的点1.CS229-LinearAlgebra - 图348的集合,其中线性组合的系数都在0和1之间; 也就是说,集合1.CS229-LinearAlgebra - 图3491.CS229-LinearAlgebra - 图350#card=math&code=%5Ctext%7Bspan%7D%28%5C%7Ba%7B1%7D%2C%20%5Cldots%20a%7Bn%7D%5C%7D%29)受到系数1.CS229-LinearAlgebra - 图351的限制的线性组合,1.CS229-LinearAlgebra - 图352满足1.CS229-LinearAlgebra - 图353。从形式上看,

1.CS229-LinearAlgebra - 图354

事实证明,1.CS229-LinearAlgebra - 图355的行列式的绝对值是对集合1.CS229-LinearAlgebra - 图356的“体积”的度量。

比方说:一个1.CS229-LinearAlgebra - 图357的矩阵(4):

1.CS229-LinearAlgebra - 图358

它的矩阵的行是:

1.CS229-LinearAlgebra - 图359

对应于这些行对应的集合1.CS229-LinearAlgebra - 图360如图1所示。对于二维矩阵,1.CS229-LinearAlgebra - 图361通常具有平行四边形的形状。 在我们的例子中,行列式的值是1.CS229-LinearAlgebra - 图362(可以使用本节后面显示的公式计算),因此平行四边形的面积为7。(请自己验证!)

在三维中,集合1.CS229-LinearAlgebra - 图363对应于一个称为平行六面体的对象(一个有倾斜边的三维框,这样每个面都有一个平行四边形)。行定义1.CS229-LinearAlgebra - 图3641.CS229-LinearAlgebra - 图365矩阵S的行列式的绝对值给出了平行六面体的三维体积。在更高的维度中,集合1.CS229-LinearAlgebra - 图366是一个称为1.CS229-LinearAlgebra - 图367维平行切的对象。

1.CS229-LinearAlgebra - 图368

图1:(4)中给出的1.CS229-LinearAlgebra - 图369矩阵1.CS229-LinearAlgebra - 图370的行列式的图示。 这里,1.CS229-LinearAlgebra - 图3711.CS229-LinearAlgebra - 图372是对应于1.CS229-LinearAlgebra - 图373行的向量,并且集合1.CS229-LinearAlgebra - 图374对应于阴影区域(即,平行四边形)。 这个行列式的绝对值,1.CS229-LinearAlgebra - 图375,即平行四边形的面积。

在代数上,行列式满足以下三个属性(所有其他属性都遵循这些属性,包括通用公式):

  1. 恒等式的行列式为1, 1.CS229-LinearAlgebra - 图376(几何上,单位超立方体的体积为1)。

  2. 给定一个矩阵 1.CS229-LinearAlgebra - 图377, 如果我们将1.CS229-LinearAlgebra - 图378中的一行乘上一个标量1.CS229-LinearAlgebra - 图379,那么新矩阵的行列式是1.CS229-LinearAlgebra - 图380

1.CS229-LinearAlgebra - 图381

几何上,将集合1.CS229-LinearAlgebra - 图382的一个边乘以系数1.CS229-LinearAlgebra - 图383,体积也会增加一个系数1.CS229-LinearAlgebra - 图384

  1. 如果我们交换任意两行在1.CS229-LinearAlgebra - 图3851.CS229-LinearAlgebra - 图386,那么新矩阵的行列式是1.CS229-LinearAlgebra - 图387,例如:

1.CS229-LinearAlgebra - 图388

你一定很奇怪,满足上述三个属性的函数的存在并不多。事实上,这样的函数确实存在,而且是唯一的(我们在这里不再证明了)。

从上述三个属性中得出的几个属性包括:

  • 对于 1.CS229-LinearAlgebra - 图389, 1.CS229-LinearAlgebra - 图390
  • 对于 1.CS229-LinearAlgebra - 图391, 1.CS229-LinearAlgebra - 图392
  • 对于 1.CS229-LinearAlgebra - 图393, 有且只有当1.CS229-LinearAlgebra - 图394是奇异的(比如不可逆) ,则:1.CS229-LinearAlgebra - 图395
  • 对于 1.CS229-LinearAlgebra - 图396 同时,1.CS229-LinearAlgebra - 图397为非奇异的,则:1.CS229-LinearAlgebra - 图398

在给出行列式的一般定义之前,我们定义,对于1.CS229-LinearAlgebra - 图3991.CS229-LinearAlgebra - 图400%20%5Ctimes%20(n-1)%7D#card=math&code=A_%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cin%20%5Cmathbb%7BR%7D%5E%7B%28n-1%29%20%5Ctimes%20%28n-1%29%7D)是由于删除第1.CS229-LinearAlgebra - 图401行和第1.CS229-LinearAlgebra - 图402列而产生的矩阵。 行列式的一般(递归)公式是:

1.CS229-LinearAlgebra - 图403%5E%7Bi%2Bj%7D%20a%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad(%5Ctext%20%7B%20for%20any%20%7D%20j%20%5Cin%201%2C%20%5Cldots%2C%20n)%20%5C%5C%20%26%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D(-1)%5E%7Bi%2Bj%7D%20a%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad(%5Ctext%20%7B%20for%20any%20%7D%20i%20%5Cin%201%2C%20%5Cldots%2C%20n)%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%7CA%7C%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%28-1%29%5E%7Bi%2Bj%7D%20a%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad%28%5Ctext%20%7B%20for%20any%20%7D%20j%20%5Cin%201%2C%20%5Cldots%2C%20n%29%20%5C%5C%20%26%3D%5Csum%7Bj%3D1%7D%5E%7Bn%7D%28-1%29%5E%7Bi%2Bj%7D%20a%7Bi%20j%7D%5Cleft%7CA_%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad%28%5Ctext%20%7B%20for%20any%20%7D%20i%20%5Cin%201%2C%20%5Cldots%2C%20n%29%20%5Cend%7Baligned%7D%0A)

对于 1.CS229-LinearAlgebra - 图404,初始情况为1.CS229-LinearAlgebra - 图405。如果我们把这个公式完全展开为 1.CS229-LinearAlgebra - 图406,就等于1.CS229-LinearAlgebra - 图4071.CS229-LinearAlgebra - 图408阶乘)不同的项。因此,对于大于1.CS229-LinearAlgebra - 图409的矩阵,我们几乎没有明确地写出完整的行列式方程。然而,1.CS229-LinearAlgebra - 图410大小的矩阵的行列式方程是相当常见的,建议好好地了解它们:

1.CS229-LinearAlgebra - 图411

1.CS229-LinearAlgebra - 图412

1.CS229-LinearAlgebra - 图413

矩阵1.CS229-LinearAlgebra - 图414的经典伴随矩阵(通常称为伴随矩阵)表示为1.CS229-LinearAlgebra - 图415#card=math&code=%5Coperatorname%7Badj%7D%28A%29),并定义为:

1.CS229-LinearAlgebra - 图416%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D%2C%20%5Cquad(%5Coperatorname%7Badj%7D(A))%7Bi%20j%7D%3D(-1)%5E%7Bi%2Bj%7D%5Cleft%7CA%7B%5Cbackslash%20j%2C%20%5Cbackslash%20i%7D%5Cright%7C%0A#card=math&code=%5Coperatorname%7Badj%7D%28A%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D%2C%20%5Cquad%28%5Coperatorname%7Badj%7D%28A%29%29%7Bi%20j%7D%3D%28-1%29%5E%7Bi%2Bj%7D%5Cleft%7CA%7B%5Cbackslash%20j%2C%20%5Cbackslash%20i%7D%5Cright%7C%0A)

(注意索引1.CS229-LinearAlgebra - 图417中的变化)。可以看出,对于任何非奇异1.CS229-LinearAlgebra - 图418

1.CS229-LinearAlgebra - 图419%0A#card=math&code=A%5E%7B-1%7D%3D%5Cfrac%7B1%7D%7B%7CA%7C%7D%20%5Coperatorname%7Badj%7D%28A%29%0A)

虽然这是一个很好的“显式”的逆矩阵公式,但我们应该注意,从数字上讲,有很多更有效的方法来计算逆矩阵。

3.11 二次型和半正定矩阵

给定方矩阵1.CS229-LinearAlgebra - 图420和向量1.CS229-LinearAlgebra - 图421,标量值1.CS229-LinearAlgebra - 图422被称为二次型。 写得清楚些,我们可以看到:

1.CS229-LinearAlgebra - 图423%7Bi%7D%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20x%7Bi%7D%5Cleft(%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bj%7D%5Cright)%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%0A#card=math&code=x%5E%7BT%7D%20A%20x%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20x%7Bi%7D%28A%20x%29%7Bi%7D%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20x%7Bi%7D%5Cleft%28%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bj%7D%5Cright%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%0A)

注意:

1.CS229-LinearAlgebra - 图424%5E%7BT%7D%3Dx%5E%7BT%7D%20A%5E%7BT%7D%20x%3Dx%5E%7BT%7D%5Cleft(%5Cfrac%7B1%7D%7B2%7D%20A%2B%5Cfrac%7B1%7D%7B2%7D%20A%5E%7BT%7D%5Cright)%20x%0A#card=math&code=x%5E%7BT%7D%20A%20x%3D%5Cleft%28x%5E%7BT%7D%20A%20x%5Cright%29%5E%7BT%7D%3Dx%5E%7BT%7D%20A%5E%7BT%7D%20x%3Dx%5E%7BT%7D%5Cleft%28%5Cfrac%7B1%7D%7B2%7D%20A%2B%5Cfrac%7B1%7D%7B2%7D%20A%5E%7BT%7D%5Cright%29%20x%0A)

第一个等号的是因为是标量的转置与自身相等,而第二个等号是因为是我们平均两个本身相等的量。 由此,我们可以得出结论,只有1.CS229-LinearAlgebra - 图425的对称部分有助于形成二次型。 出于这个原因,我们经常隐含地假设以二次型出现的矩阵是对称阵。
我们给出以下定义:

  • 对于所有非零向量1.CS229-LinearAlgebra - 图4261.CS229-LinearAlgebra - 图427,对称阵1.CS229-LinearAlgebra - 图428正定positive definite,PD)。这通常表示为1.CS229-LinearAlgebra - 图429(或1.CS229-LinearAlgebra - 图430),并且通常将所有正定矩阵的集合表示为1.CS229-LinearAlgebra - 图431

  • 对于所有向量1.CS229-LinearAlgebra - 图432,对称矩阵1.CS229-LinearAlgebra - 图433半正定(positive semidefinite ,PSD)。 这写为(或1.CS229-LinearAlgebra - 图4341.CS229-LinearAlgebra - 图435),并且所有半正定矩阵的集合通常表示为1.CS229-LinearAlgebra - 图436

  • 同样,对称矩阵1.CS229-LinearAlgebra - 图437负定negative definite,ND),如果对于所有非零1.CS229-LinearAlgebra - 图438,则1.CS229-LinearAlgebra - 图439表示为1.CS229-LinearAlgebra - 图440(或1.CS229-LinearAlgebra - 图441)。

  • 类似地,对称矩阵1.CS229-LinearAlgebra - 图442半负定(negative semidefinite,NSD),如果对于所有1.CS229-LinearAlgebra - 图443,则1.CS229-LinearAlgebra - 图444表示为1.CS229-LinearAlgebra - 图445(或1.CS229-LinearAlgebra - 图446)。

  • 最后,对称矩阵1.CS229-LinearAlgebra - 图447不定的,如果它既不是正半定也不是负半定,即,如果存在1.CS229-LinearAlgebra - 图448,那么1.CS229-LinearAlgebra - 图4491.CS229-LinearAlgebra - 图450

很明显,如果1.CS229-LinearAlgebra - 图451是正定的,那么1.CS229-LinearAlgebra - 图452是负定的,反之亦然。同样,如果1.CS229-LinearAlgebra - 图453是半正定的,那么1.CS229-LinearAlgebra - 图454是是半负定的,反之亦然。如果果1.CS229-LinearAlgebra - 图455是不定的,那么1.CS229-LinearAlgebra - 图456是也是不定的。

正定矩阵和负定矩阵的一个重要性质是它们总是满秩,因此是可逆的。为了了解这是为什么,假设某个矩阵1.CS229-LinearAlgebra - 图457不是满秩。然后,假设1.CS229-LinearAlgebra - 图458的第1.CS229-LinearAlgebra - 图459列可以表示为其他1.CS229-LinearAlgebra - 图460列的线性组合:

1.CS229-LinearAlgebra - 图461

对于某些1.CS229-LinearAlgebra - 图462。设1.CS229-LinearAlgebra - 图463,则:

1.CS229-LinearAlgebra - 图464

但这意味着对于某些非零向量1.CS229-LinearAlgebra - 图4651.CS229-LinearAlgebra - 图466,因此1.CS229-LinearAlgebra - 图467必须既不是正定也不是负定。如果1.CS229-LinearAlgebra - 图468是正定或负定,则必须是满秩。
最后,有一种类型的正定矩阵经常出现,因此值得特别提及。 给定矩阵1.CS229-LinearAlgebra - 图469(不一定是对称或偶数平方),矩阵1.CS229-LinearAlgebra - 图470(有时称为Gram矩阵)总是半正定的。 此外,如果1.CS229-LinearAlgebra - 图471(同时为了方便起见,我们假设1.CS229-LinearAlgebra - 图472是满秩),则1.CS229-LinearAlgebra - 图473是正定的。

3.12 特征值和特征向量

给定一个方阵1.CS229-LinearAlgebra - 图474,我们认为在以下条件下,1.CS229-LinearAlgebra - 图4751.CS229-LinearAlgebra - 图476特征值1.CS229-LinearAlgebra - 图477是相应的特征向量

1.CS229-LinearAlgebra - 图478

直观地说,这个定义意味着将1.CS229-LinearAlgebra - 图479乘以向量1.CS229-LinearAlgebra - 图480会得到一个新的向量,该向量指向与1.CS229-LinearAlgebra - 图481相同的方向,但按系数1.CS229-LinearAlgebra - 图482缩放。值得注意的是,对于任何特征向量1.CS229-LinearAlgebra - 图483和标量1.CS229-LinearAlgebra - 图4841.CS229-LinearAlgebra - 图485%3DcAx%3Dc%5Clambda%20x%3D%5Clambda(cx)#card=math&code=A%28cx%29%3DcAx%3Dc%5Clambda%20x%3D%5Clambda%28cx%29),1.CS229-LinearAlgebra - 图486也是一个特征向量。因此,当我们讨论与1.CS229-LinearAlgebra - 图487相关的特征向量时,我们通常假设特征向量被标准化为长度为1(这仍然会造成一些歧义,因为1.CS229-LinearAlgebra - 图4881.CS229-LinearAlgebra - 图489都是特征向量,但我们必须接受这一点)。

我们可以重写上面的等式来说明1.CS229-LinearAlgebra - 图490#card=math&code=%28%5Clambda%2Cx%29)是1.CS229-LinearAlgebra - 图491的特征值和特征向量的组合:

1.CS229-LinearAlgebra - 图492x%3D0%2Cx%20%5Cne%200%0A#card=math&code=%28%5Clambda%20I-A%29x%3D0%2Cx%20%5Cne%200%0A)

但是1.CS229-LinearAlgebra - 图493x%3D0#card=math&code=%28%5Clambda%20I-A%29x%3D0)只有当1.CS229-LinearAlgebra - 图494#card=math&code=%28%5Clambda%20I-A%29)有一个非空零空间时,同时1.CS229-LinearAlgebra - 图495#card=math&code=%28%5Clambda%20I-A%29)是奇异的,1.CS229-LinearAlgebra - 图496才具有非零解,即:

1.CS229-LinearAlgebra - 图497%7C%3D0%0A#card=math&code=%7C%28%5Clambda%20I-A%29%7C%3D0%0A)

现在,我们可以使用行列式的先前定义将表达式1.CS229-LinearAlgebra - 图498%7C#card=math&code=%7C%28%5Clambda%20I-A%29%7C)扩展为1.CS229-LinearAlgebra - 图499中的(非常大的)多项式,其中,1.CS229-LinearAlgebra - 图500的度为1.CS229-LinearAlgebra - 图501。它通常被称为矩阵1.CS229-LinearAlgebra - 图502的特征多项式。

然后我们找到这个特征多项式的1.CS229-LinearAlgebra - 图503(可能是复数)根,并用1.CS229-LinearAlgebra - 图504表示。这些都是矩阵1.CS229-LinearAlgebra - 图505的特征值,但我们注意到它们可能不明显。为了找到特征值1.CS229-LinearAlgebra - 图506对应的特征向量,我们只需解线性方程1.CS229-LinearAlgebra - 图507x%3D0#card=math&code=%28%5Clambda%20I-A%29x%3D0),因为1.CS229-LinearAlgebra - 图508#card=math&code=%28%5Clambda%20I-A%29)是奇异的,所以保证有一个非零解(但也可能有多个或无穷多个解)。

应该注意的是,这不是实际用于数值计算特征值和特征向量的方法(记住行列式的完全展开式有1.CS229-LinearAlgebra - 图509项),这是一个数学上的争议。

以下是特征值和特征向量的属性(所有假设在1.CS229-LinearAlgebra - 图510具有特征值1.CS229-LinearAlgebra - 图511的前提下):

  • 1.CS229-LinearAlgebra - 图512的迹等于其特征值之和 1.CS229-LinearAlgebra - 图513
  • 1.CS229-LinearAlgebra - 图514的行列式等于其特征值的乘积 1.CS229-LinearAlgebra - 图515
  • 1.CS229-LinearAlgebra - 图516的秩等于1.CS229-LinearAlgebra - 图517的非零特征值的个数

  • 假设1.CS229-LinearAlgebra - 图518非奇异,其特征值为1.CS229-LinearAlgebra - 图519和特征向量为1.CS229-LinearAlgebra - 图520。那么1.CS229-LinearAlgebra - 图521是具有相关特征向量1.CS229-LinearAlgebra - 图5221.CS229-LinearAlgebra - 图523的特征值,即1.CS229-LinearAlgebra - 图524x#card=math&code=A%5E%7B-1%7Dx%3D%281%2F%5Clambda%29x)。(要证明这一点,取特征向量方程,1.CS229-LinearAlgebra - 图525,两边都左乘1.CS229-LinearAlgebra - 图526

  • 对角阵的特征值1.CS229-LinearAlgebra - 图527#card=math&code=d%3Ddiag%28d_1%EF%BC%8C%5Ccdots%2Cd_n%29)实际上就是对角元素1.CS229-LinearAlgebra - 图528

3.13 对称矩阵的特征值和特征向量

通常情况下,一般的方阵的特征值和特征向量的结构可以很细微地表示出来。
值得庆幸的是,在机器学习的大多数场景下,处理对称实矩阵就足够了,其处理的对称实矩阵的特征值和特征向量具有显着的特性。

在本节中,我们假设1.CS229-LinearAlgebra - 图529是实对称矩阵, 具有以下属性:

  1. 1.CS229-LinearAlgebra - 图530的所有特征值都是实数。 我们用用1.CS229-LinearAlgebra - 图531表示。

  2. 存在一组特征向量1.CS229-LinearAlgebra - 图532,对于所有1.CS229-LinearAlgebra - 图5331.CS229-LinearAlgebra - 图534是具有特征值1.CS229-LinearAlgebra - 图5351.CS229-LinearAlgebra - 图536的特征向量。1.CS229-LinearAlgebra - 图537是单位向量并且彼此正交。

1.CS229-LinearAlgebra - 图538是包含1.CS229-LinearAlgebra - 图539作为列的正交矩阵:

1.CS229-LinearAlgebra - 图540

1.CS229-LinearAlgebra - 图541#card=math&code=%5CLambda%3D%20diag%28%5Clambda_1%2C%5Ccdots%2C%5Clambda_n%29)是包含1.CS229-LinearAlgebra - 图542作为对角线上的元素的对角矩阵。 使用2.3节的方程(2)中的矩阵 - 矩阵向量乘法的方法,我们可以验证:

1.CS229-LinearAlgebra - 图543%3DU%20%5CLambda%0A#card=math&code=A%20U%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%7B%20%7C%7D%20%26%20%7B%20%7C%7D%20%26%20%7B%7D%20%26%20%7B%20%7C%7D%20%5C%5C%20%7BA%20u%7B1%7D%7D%20%26%20%7BA%20u%7B2%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7BA%20u%7Bn%7D%7D%20%5C%5C%20%7B%20%7C%7D%20%26%20%7B%20%7C%7D%20%26%20%7B%7D%20%26%20%7B%20%7C%7D%5Cend%7Barray%7D%5Cright%5D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bccc%7D%7B%20%7C%7D%20%26%20%7B%20%7C%7D%20%26%20%7B%20%7C%7D%20%26%20%7B%20%7C%7D%5C%5C%20%7B%5Clambda%7B1%7D%20u%7B1%7D%7D%20%26%20%7B%5Clambda%7B2%7D%20u%7B2%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Clambda%7Bn%7D%20u%7Bn%7D%7D%20%5C%5C%20%7B%20%7C%7D%20%26%20%7B%20%7C%7D%20%26%20%7B%7C%7D%20%26%20%7B%20%7C%7D%5Cend%7Barray%7D%5Cright%5D%3DU%20%5Coperatorname%7Bdiag%7D%5Cleft%28%5Clambda%7B1%7D%2C%20%5Cldots%2C%20%5Clambda_%7Bn%7D%5Cright%29%3DU%20%5CLambda%0A)

考虑到正交矩阵1.CS229-LinearAlgebra - 图544满足1.CS229-LinearAlgebra - 图545,利用上面的方程,我们得到:

1.CS229-LinearAlgebra - 图546

这种1.CS229-LinearAlgebra - 图547的新的表示形式为1.CS229-LinearAlgebra - 图548,通常称为矩阵1.CS229-LinearAlgebra - 图549的对角化。术语对角化是这样来的:通过这种表示,我们通常可以有效地将对称矩阵1.CS229-LinearAlgebra - 图550视为对角矩阵 , 这更容易理解。关于由特征向量1.CS229-LinearAlgebra - 图551定义的基础, 我们将通过几个例子详细说明。

背景知识:代表另一个基的向量。

任何正交矩阵1.CS229-LinearAlgebra - 图552定义了一个新的属于1.CS229-LinearAlgebra - 图553的基(坐标系),意义如下:对于任何向量1.CS229-LinearAlgebra - 图554都可以表示为1.CS229-LinearAlgebra - 图555的线性组合,其系数为1.CS229-LinearAlgebra - 图556

1.CS229-LinearAlgebra - 图557

在第二个等式中,我们使用矩阵和向量相乘的方法。 实际上,这种1.CS229-LinearAlgebra - 图558是唯一存在的:

1.CS229-LinearAlgebra - 图559

换句话说,向量1.CS229-LinearAlgebra - 图560可以作为向量1.CS229-LinearAlgebra - 图561的另一种表示,与1.CS229-LinearAlgebra - 图562定义的基有关。

“对角化”矩阵向量乘法。 通过上面的设置,我们将看到左乘矩阵1.CS229-LinearAlgebra - 图563可以被视为左乘以对角矩阵关于特征向量的基。 假设1.CS229-LinearAlgebra - 图564是一个向量,1.CS229-LinearAlgebra - 图565表示1.CS229-LinearAlgebra - 图566的基。设1.CS229-LinearAlgebra - 图567为矩阵向量积。现在让我们计算关于1.CS229-LinearAlgebra - 图568的基1.CS229-LinearAlgebra - 图569
然后,再利用1.CS229-LinearAlgebra - 图570和方程1.CS229-LinearAlgebra - 图571,我们得到:

1.CS229-LinearAlgebra - 图572

我们可以看到,原始空间中的左乘矩阵1.CS229-LinearAlgebra - 图573等于左乘对角矩阵1.CS229-LinearAlgebra - 图574相对于新的基,即仅将每个坐标缩放相应的特征值。
在新的基上,矩阵多次相乘也变得简单多了。例如,假设1.CS229-LinearAlgebra - 图575。根据1.CS229-LinearAlgebra - 图576的元素导出1.CS229-LinearAlgebra - 图577的分析形式,使用原始的基可能是一场噩梦,但使用新的基就容易多了:

1.CS229-LinearAlgebra - 图578

“对角化”二次型。作为直接的推论,二次型1.CS229-LinearAlgebra - 图579也可以在新的基上简化。

1.CS229-LinearAlgebra - 图580

(回想一下,在旧的表示法中,1.CS229-LinearAlgebra - 图581涉及一个1.CS229-LinearAlgebra - 图582项的和,而不是上面等式中的1.CS229-LinearAlgebra - 图583项。)利用这个观点,我们还可以证明矩阵1.CS229-LinearAlgebra - 图584的正定性完全取决于其特征值的符号:

  1. 如果所有的1.CS229-LinearAlgebra - 图585,则矩阵1.CS229-LinearAlgebra - 图586正定的,因为对于任意的1.CS229-LinearAlgebra - 图587,1.CS229-LinearAlgebra - 图588
  2. 如果所有的1.CS229-LinearAlgebra - 图589,则矩阵1.CS229-LinearAlgebra - 图590是为正半定,因为对于任意的$\hat x 1.CS229-LinearAlgebra - 图591x^{T} A x=\sum{i=1}^{n} \lambda{i} \hat{x}_{i}^{2} \geq 0$
  3. 同样,如果所有1.CS229-LinearAlgebra - 图5921.CS229-LinearAlgebra - 图593,则矩阵1.CS229-LinearAlgebra - 图594分别为负定或半负定。
  4. 最后,如果1.CS229-LinearAlgebra - 图595同时具有正特征值和负特征值,比如λ1.CS229-LinearAlgebra - 图5961.CS229-LinearAlgebra - 图597,那么它是不定的。这是因为如果我们让1.CS229-LinearAlgebra - 图598满足1.CS229-LinearAlgebra - 图5991.CS229-LinearAlgebra - 图600,同时所有的1.CS229-LinearAlgebra - 图601,那么1.CS229-LinearAlgebra - 图602 ,我们让1.CS229-LinearAlgebra - 图603满足1.CS229-LinearAlgebra - 图6041.CS229-LinearAlgebra - 图605,同时所有的1.CS229-LinearAlgebra - 图606,那么1.CS229-LinearAlgebra - 图607

特征值和特征向量经常出现的应用是最大化矩阵的某些函数。特别是对于矩阵1.CS229-LinearAlgebra - 图608,考虑以下最大化问题:

1.CS229-LinearAlgebra - 图609

也就是说,我们要找到(范数1)的向量,它使二次型最大化。假设特征值的阶数为1.CS229-LinearAlgebra - 图610,此优化问题的最优值为1.CS229-LinearAlgebra - 图611,且与1.CS229-LinearAlgebra - 图612对应的任何特征向量1.CS229-LinearAlgebra - 图613都是最大值之一。(如果1.CS229-LinearAlgebra - 图614,那么有一个与特征值1.CS229-LinearAlgebra - 图615对应的唯一特征向量,它是上面那个优化问题的唯一最大值。)
我们可以通过使用对角化技术来证明这一点:注意,通过公式1.CS229-LinearAlgebra - 图616推出1.CS229-LinearAlgebra - 图617,并利用公式:

1.CS229-LinearAlgebra - 图618,我们可以将上面那个优化问题改写为:

1.CS229-LinearAlgebra - 图619

然后,我们得到目标的上界为1.CS229-LinearAlgebra - 图620

1.CS229-LinearAlgebra - 图621

此外,设置1.CS229-LinearAlgebra - 图622可让上述等式成立,这与设置1.CS229-LinearAlgebra - 图623相对应。

4.矩阵微积分

虽然前面章节中的主题通常包含在线性代数的标准课程中,但似乎很少涉及(我们将广泛使用)的一个主题是微积分扩展到向量设置展。尽管我们使用的所有实际微积分都是相对微不足道的,但是符号通常会使事情看起来比实际困难得多。 在本节中,我们将介绍矩阵微积分的一些基本定义,并提供一些示例。

4.1 梯度

假设1.CS229-LinearAlgebra - 图624是将维度为1.CS229-LinearAlgebra - 图625的矩阵1.CS229-LinearAlgebra - 图626作为输入并返回实数值的函数。 然后1.CS229-LinearAlgebra - 图627的梯度(相对于1.CS229-LinearAlgebra - 图628)是偏导数矩阵,定义如下:

1.CS229-LinearAlgebra - 图629%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%20%5Ctimes%20n%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B11%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B12%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B1n%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B21%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B22%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7B2%20n%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%26%20%7B%5Cvdots%7D%20%26%20%7B%5Cddots%7D%20%26%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7Bm%201%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7Bm%202%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7Bm%20n%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7BA%7D%20f%28A%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%20%5Ctimes%20n%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B11%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B12%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B1n%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B21%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B22%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7B2%20n%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%26%20%7B%5Cvdots%7D%20%26%20%7B%5Cddots%7D%20%26%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7Bm%201%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A%7Bm%202%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A_%7Bm%20n%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A)

即,1.CS229-LinearAlgebra - 图630矩阵:

1.CS229-LinearAlgebra - 图631%5Cright)%7Bi%20j%7D%3D%5Cfrac%7B%5Cpartial%20f(A)%7D%7B%5Cpartial%20A%7Bi%20j%7D%7D%0A#card=math&code=%5Cleft%28%5Cnabla%7BA%7D%20f%28A%29%5Cright%29%7Bi%20j%7D%3D%5Cfrac%7B%5Cpartial%20f%28A%29%7D%7B%5Cpartial%20A_%7Bi%20j%7D%7D%0A)

请注意,$\nabla_{A} f(A) 1.CS229-LinearAlgebra - 图632A1.CS229-LinearAlgebra - 图633A1.CS229-LinearAlgebra - 图634A\in \mathbb{R}^{n}$,则

1.CS229-LinearAlgebra - 图635%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7Bx%7D%20f%28x%29%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x_%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A)

重要的是要记住,只有当函数是实值时,即如果函数返回标量值,才定义函数的梯度。例如,1.CS229-LinearAlgebra - 图636相对于1.CS229-LinearAlgebra - 图637,我们不能取1.CS229-LinearAlgebra - 图638的梯度,因为这个量是向量值。
它直接从偏导数的等价性质得出:

  • 1.CS229-LinearAlgebra - 图639%2Bg(x))%3D%5Cnabla%7Bx%7D%20f(x)%2B%5Cnabla%7Bx%7D%20g(x)#card=math&code=%5Cnabla%7Bx%7D%28f%28x%29%2Bg%28x%29%29%3D%5Cnabla%7Bx%7D%20f%28x%29%2B%5Cnabla_%7Bx%7D%20g%28x%29)

  • 对于1.CS229-LinearAlgebra - 图6401.CS229-LinearAlgebra - 图641)%3Dt%20%5Cnabla%7Bx%7D%20f(x)#card=math&code=%5Cnabla%7Bx%7D%28t%20f%28x%29%29%3Dt%20%5Cnabla_%7Bx%7D%20f%28x%29)

原则上,梯度是偏导数对多变量函数的自然延伸。然而,在实践中,由于符号的原因,使用梯度有时是很困难的。例如,假设1.CS229-LinearAlgebra - 图642是一个固定系数矩阵,假设1.CS229-LinearAlgebra - 图643是一个固定系数向量。设1.CS229-LinearAlgebra - 图6441.CS229-LinearAlgebra - 图645%3Dz%5ETz#card=math&code=f%28z%29%3Dz%5ETz)定义的函数,因此1.CS229-LinearAlgebra - 图646%3D2z#card=math&code=%5Cnabla_%7Bz%7Df%28z%29%3D2z)。但现在考虑表达式,

1.CS229-LinearAlgebra - 图647%0A#card=math&code=%5Cnabla%20f%28Ax%29%0A)

该表达式应该如何解释? 至少有两种可能性:
1.在第一个解释中,回想起1.CS229-LinearAlgebra - 图648%3D2z#card=math&code=%5Cnabla_%7Bz%7Df%28z%29%3D2z)。 在这里,我们将1.CS229-LinearAlgebra - 图649#card=math&code=%5Cnabla%20f%28Ax%29)解释为评估点1.CS229-LinearAlgebra - 图650处的梯度,因此:

1.CS229-LinearAlgebra - 图651%3D2(A%20x)%3D2%20A%20x%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%7D%0A#card=math&code=%5Cnabla%20f%28A%20x%29%3D2%28A%20x%29%3D2%20A%20x%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%7D%0A)

2.在第二种解释中,我们将数量1.CS229-LinearAlgebra - 图652#card=math&code=f%28Ax%29)视为输入变量1.CS229-LinearAlgebra - 图653的函数。 更正式地说,设1.CS229-LinearAlgebra - 图654%20%3Df(Ax)#card=math&code=g%28x%29%20%3Df%28Ax%29)。 然后在这个解释中:

1.CS229-LinearAlgebra - 图655%3D%5Cnabla%7Bx%7D%20g(x)%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%0A#card=math&code=%5Cnabla%20f%28A%20x%29%3D%5Cnabla%7Bx%7D%20g%28x%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D%0A)

在这里,我们可以看到这两种解释确实不同。 一种解释产生1.CS229-LinearAlgebra - 图656维向量作为结果,而另一种解释产生1.CS229-LinearAlgebra - 图657维向量作为结果! 我们怎么解决这个问题?

这里,关键是要明确我们要区分的变量。
在第一种情况下,我们将函数1.CS229-LinearAlgebra - 图658与其参数1.CS229-LinearAlgebra - 图659进行区分,然后替换参数1.CS229-LinearAlgebra - 图660
在第二种情况下,我们将复合函数1.CS229-LinearAlgebra - 图661%3Df(Ax)#card=math&code=g%28x%29%3Df%28Ax%29)直接与1.CS229-LinearAlgebra - 图662进行微分。

我们将第一种情况表示为1.CS229-LinearAlgebra - 图663#card=math&code=%5Cnabla%20zf%28Ax%29),第二种情况表示为1.CS229-LinearAlgebra - 图664#card=math&code=%5Cnabla%20xf%28Ax%29)。

保持符号清晰是非常重要的,以后完成课程作业时候你就会发现。

4.2 黑塞矩阵

假设1.CS229-LinearAlgebra - 图665是一个函数,它接受1.CS229-LinearAlgebra - 图666中的向量并返回实数。那么关于1.CS229-LinearAlgebra - 图667黑塞矩阵(也有翻译作海森矩阵),写做:1.CS229-LinearAlgebra - 图668#card=math&code=%5Cnabla_x%20%5E2%20f%28A%20x%29),或者简单地说,1.CS229-LinearAlgebra - 图6691.CS229-LinearAlgebra - 图670矩阵的偏导数:

1.CS229-LinearAlgebra - 图671%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B1%7D%5E%7B2%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B1%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B1%7D%20%5Cpartial%20x%7Bn%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%5E%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7Bn%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%26%20%7B%5Cvdots%7D%20%26%20%7B%5Cddots%7D%20%26%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bn%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bn%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bn%7D%5E%7B2%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7Bx%7D%5E%7B2%7D%20f%28x%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bcccc%7D%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B1%7D%5E%7B2%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B1%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B1%7D%20%5Cpartial%20x%7Bn%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%5E%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7Bn%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%26%20%7B%5Cvdots%7D%20%26%20%7B%5Cddots%7D%20%26%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bn%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bn%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%26%20%7B%5Ccdots%7D%20%26%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x_%7Bn%7D%5E%7B2%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A)

换句话说,1.CS229-LinearAlgebra - 图672%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D#card=math&code=%5Cnabla_%7Bx%7D%5E%7B2%7D%20f%28x%29%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D),其:

1.CS229-LinearAlgebra - 图673%5Cright)%7Bi%20j%7D%3D%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7Bj%7D%7D%0A#card=math&code=%5Cleft%28%5Cnabla%7Bx%7D%5E%7B2%7D%20f%28x%29%5Cright%29%7Bi%20j%7D%3D%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x_%7Bj%7D%7D%0A)

注意:黑塞矩阵通常是对称阵:

1.CS229-LinearAlgebra - 图674%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7Bj%7D%7D%3D%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bj%7D%20%5Cpartial%20x%7Bi%7D%7D%0A#card=math&code=%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7Bj%7D%7D%3D%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bj%7D%20%5Cpartial%20x%7Bi%7D%7D%0A)

与梯度相似,只有当1.CS229-LinearAlgebra - 图675#card=math&code=f%28x%29)为实值时才定义黑塞矩阵。

很自然地认为梯度与向量函数的一阶导数的相似,而黑塞矩阵与二阶导数的相似(我们使用的符号也暗示了这种关系)。 这种直觉通常是正确的,但需要记住以下几个注意事项。
首先,对于一个变量1.CS229-LinearAlgebra - 图676的实值函数,它的基本定义:二阶导数是一阶导数的导数,即:

1.CS229-LinearAlgebra - 图677%7D%7B%5Cpartial%20x%5E%7B2%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7D%20f(x)%0A#card=math&code=%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%5E%7B2%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7D%20f%28x%29%0A)

然而,对于向量的函数,函数的梯度是一个向量,我们不能取向量的梯度,即:

1.CS229-LinearAlgebra - 图678%3D%5Cnabla%7Bx%7D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7Bx%7D%20%5Cnabla%7Bx%7D%20f%28x%29%3D%5Cnabla%7Bx%7D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A)

上面这个表达式没有意义。 因此,黑塞矩阵不是梯度的梯度。 然而,下面这种情况却这几乎是正确的:如果我们看一下梯度1.CS229-LinearAlgebra - 图679%5Cright)%7Bi%7D%3D%5Cpartial%20f(x)%20%2F%20%5Cpartial%20x%7Bi%7D#card=math&code=%5Cleft%28%5Cnabla%7Bx%7D%20f%28x%29%5Cright%29%7Bi%7D%3D%5Cpartial%20f%28x%29%20%2F%20%5Cpartial%20x_%7Bi%7D)的第1.CS229-LinearAlgebra - 图680个元素,并取关于于1.CS229-LinearAlgebra - 图681的梯度我们得到:

1.CS229-LinearAlgebra - 图682%7D%7B%5Cpartial%20x%7Bi%7D%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f(x)%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7Bx%7D%20%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7Bi%7D%7D%3D%5Cleft%5B%5Cbegin%7Barray%7D%7Bc%7D%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x%7B1%7D%7D%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7B2%7D%20%5Cpartial%20x%7B2%7D%7D%7D%20%5C%5C%20%7B%5Cvdots%7D%20%5C%5C%20%7B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7Bi%7D%20%5Cpartial%20x_%7Bn%7D%7D%7D%5Cend%7Barray%7D%5Cright%5D%0A)

这是黑塞矩阵第1.CS229-LinearAlgebra - 图683行(列),所以:

1.CS229-LinearAlgebra - 图684%3D%5Cleft%5B%5Cnabla%7Bx%7D%5Cleft(%5Cnabla%7Bx%7D%20f(x)%5Cright)%7B1%7D%20%5Cquad%20%5Cnabla%7Bx%7D%5Cleft(%5Cnabla%7Bx%7D%20f(x)%5Cright)%7B2%7D%20%5Cquad%20%5Ccdots%20%5Cquad%20%5Cnabla%7Bx%7D%5Cleft(%5Cnabla%7Bx%7D%20f(x)%5Cright)%7Bn%7D%5Cright%5D%0A#card=math&code=%5Cnabla%7Bx%7D%5E%7B2%7D%20f%28x%29%3D%5Cleft%5B%5Cnabla%7Bx%7D%5Cleft%28%5Cnabla%7Bx%7D%20f%28x%29%5Cright%29%7B1%7D%20%5Cquad%20%5Cnabla%7Bx%7D%5Cleft%28%5Cnabla%7Bx%7D%20f%28x%29%5Cright%29%7B2%7D%20%5Cquad%20%5Ccdots%20%5Cquad%20%5Cnabla%7Bx%7D%5Cleft%28%5Cnabla%7Bx%7D%20f%28x%29%5Cright%29_%7Bn%7D%5Cright%5D%0A)

简单地说:我们可以说由于:1.CS229-LinearAlgebra - 图685%3D%5Cnabla%7Bx%7D%5Cleft(%5Cnabla%7Bx%7D%20f(x)%5Cright)%5E%7BT%7D#card=math&code=%5Cnabla%7Bx%7D%5E%7B2%7D%20f%28x%29%3D%5Cnabla%7Bx%7D%5Cleft%28%5Cnabla%7Bx%7D%20f%28x%29%5Cright%29%5E%7BT%7D),只要我们理解,这实际上是取![](https://g.yuque.com/gr/latex?%5Cnabla%7Bx%7D%20f(x)#card=math&code=%5Cnabla_%7Bx%7D%20f%28x%29)的每个元素的梯度,而不是整个向量的梯度。

最后,请注意,虽然我们可以对矩阵1.CS229-LinearAlgebra - 图686取梯度,但对于这门课,我们只考虑对向量1.CS229-LinearAlgebra - 图687取黑塞矩阵。
这会方便很多(事实上,我们所做的任何计算都不要求我们找到关于矩阵的黑森方程),因为关于矩阵的黑塞方程就必须对矩阵所有元素求偏导数1.CS229-LinearAlgebra - 图688%20%2F%5Cleft(%5Cpartial%20A%7Bi%20j%7D%20%5Cpartial%20A%7Bk%20%5Cell%7D%5Cright)#card=math&code=%5Cpartial%5E%7B2%7D%20f%28A%29%20%2F%5Cleft%28%5Cpartial%20A%7Bi%20j%7D%20%5Cpartial%20A%7Bk%20%5Cell%7D%5Cright%29),将其表示为矩阵相当麻烦。

4.3 二次函数和线性函数的梯度和黑塞矩阵

现在让我们尝试确定几个简单函数的梯度和黑塞矩阵。 应该注意的是,这里给出的所有梯度都是CS229讲义中给出的梯度的特殊情况。

对于1.CS229-LinearAlgebra - 图689, 设1.CS229-LinearAlgebra - 图690%3Db%5ETx#card=math&code=f%28x%29%3Db%5ETx) 的某些已知向量1.CS229-LinearAlgebra - 图691 ,则:

1.CS229-LinearAlgebra - 图692%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20b%7Bi%7D%20x%7Bi%7D%0A#card=math&code=f%28x%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20b%7Bi%7D%20x%7Bi%7D%0A)

所以:

1.CS229-LinearAlgebra - 图693%7D%7B%5Cpartial%20x%7Bk%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20b%7Bi%7D%20x%7Bi%7D%3Db%7Bk%7D%0A#card=math&code=%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7Bk%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20b%7Bi%7D%20x%7Bi%7D%3Db%7Bk%7D%0A)

由此我们可以很容易地看出1.CS229-LinearAlgebra - 图694。 这应该与单变量微积分中的类似情况进行比较,其中1.CS229-LinearAlgebra - 图695%20a%20x%3Da#card=math&code=%5Cpartial%20%2F%28%5Cpartial%20x%29%20a%20x%3Da)。
现在考虑1.CS229-LinearAlgebra - 图696的二次函数1.CS229-LinearAlgebra - 图697%3Dx%5ETAx#card=math&code=f%28x%29%3Dx%5ETAx)。 记住这一点:

1.CS229-LinearAlgebra - 图698%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%0A#card=math&code=f%28x%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%0A)

为了取偏导数,我们将分别考虑包括1.CS229-LinearAlgebra - 图6991.CS229-LinearAlgebra - 图700因子的项:

1.CS229-LinearAlgebra - 图701%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%20%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B%5Csum%7Bi%20%5Cneq%20k%7D%20%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%2B%5Csum%7Bi%20%5Cneq%20k%7D%20A%7Bi%20k%7D%20x%7Bi%7D%20x%7Bk%7D%2B%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bk%20j%7D%20x%7Bk%7D%20x%7Bj%7D%2BA%7Bk%20k%7D%20x%7Bk%7D%5E%7B2%7D%5Cright%5D%20%5C%5C%20%26%3D%5Csum%7Bi%20%5Cneq%20k%7D%20A%7Bi%20k%7D%20x%7Bi%7D%2B%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bk%20j%7D%20x%7Bj%7D%2B2%20A%7Bk%20k%7D%20x%7Bk%7D%20%5C%5C%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7Bi%20k%7D%20x%7Bi%7D%2B%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bk%20j%7D%20x%7Bj%7D%3D2%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7Bk%20i%7D%20x%7Bi%7D%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%20%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%20%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B%5Csum%7Bi%20%5Cneq%20k%7D%20%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bi%20j%7D%20x%7Bi%7D%20x%7Bj%7D%2B%5Csum%7Bi%20%5Cneq%20k%7D%20A%7Bi%20k%7D%20x%7Bi%7D%20x%7Bk%7D%2B%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bk%20j%7D%20x%7Bk%7D%20x%7Bj%7D%2BA%7Bk%20k%7D%20x%7Bk%7D%5E%7B2%7D%5Cright%5D%20%5C%5C%20%26%3D%5Csum%7Bi%20%5Cneq%20k%7D%20A%7Bi%20k%7D%20x%7Bi%7D%2B%5Csum%7Bj%20%5Cneq%20k%7D%20A%7Bk%20j%7D%20x%7Bj%7D%2B2%20A%7Bk%20k%7D%20x%7Bk%7D%20%5C%5C%20%26%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7Bi%20k%7D%20x%7Bi%7D%2B%5Csum%7Bj%3D1%7D%5E%7Bn%7D%20A%7Bk%20j%7D%20x%7Bj%7D%3D2%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7Bk%20i%7D%20x%7Bi%7D%20%5Cend%7Baligned%7D%0A)

最后一个等式,是因为1.CS229-LinearAlgebra - 图702是对称的(我们可以安全地假设,因为它以二次形式出现)。 注意,1.CS229-LinearAlgebra - 图703#card=math&code=%5Cnabla%7Bx%7D%20f%28x%29)的第1.CS229-LinearAlgebra - 图704个元素是1.CS229-LinearAlgebra - 图7051.CS229-LinearAlgebra - 图706的第1.CS229-LinearAlgebra - 图707行的内积。 因此,![](https://g.yuque.com/gr/latex?%5Cnabla%7Bx%7D%20x%5E%7BT%7D%20A%20x%3D2%20A%20x#card=math&code=%5Cnabla_%7Bx%7D%20x%5E%7BT%7D%20A%20x%3D2%20A%20x)。 同样,这应该提醒你单变量微积分中的类似事实,即1.CS229-LinearAlgebra - 图708%20a%20x%5E%7B2%7D%3D2%20a%20x#card=math&code=%5Cpartial%20%2F%28%5Cpartial%20x%29%20a%20x%5E%7B2%7D%3D2%20a%20x)。

最后,让我们来看看二次函数1.CS229-LinearAlgebra - 图709%3Dx%5ETAx#card=math&code=f%28x%29%3Dx%5ETAx)黑塞矩阵(显然,线性函数1.CS229-LinearAlgebra - 图710的黑塞矩阵为零)。在这种情况下:

1.CS229-LinearAlgebra - 图711%7D%7B%5Cpartial%20x%7Bk%7D%20%5Cpartial%20x%7B%5Cell%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B%5Cfrac%7B%5Cpartial%20f(x)%7D%7B%5Cpartial%20x%7B%5Cell%7D%7D%5Cright%5D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B2%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7B%5Cell%20i%7D%20x%7Bi%7D%5Cright%5D%3D2%20A%7B%5Cell%20k%7D%3D2%20A%7Bk%20%5Cell%7D%0A#card=math&code=%5Cfrac%7B%5Cpartial%5E%7B2%7D%20f%28x%29%7D%7B%5Cpartial%20x%7Bk%7D%20%5Cpartial%20x%7B%5Cell%7D%7D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B%5Cfrac%7B%5Cpartial%20f%28x%29%7D%7B%5Cpartial%20x%7B%5Cell%7D%7D%5Cright%5D%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Bk%7D%7D%5Cleft%5B2%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%20A%7B%5Cell%20i%7D%20x%7Bi%7D%5Cright%5D%3D2%20A%7B%5Cell%20k%7D%3D2%20A%7Bk%20%5Cell%7D%0A)

因此,应该很清楚1.CS229-LinearAlgebra - 图712,这应该是完全可以理解的(同样类似于1.CS229-LinearAlgebra - 图713%20a%20x%5E%7B2%7D%3D2a#card=math&code=%5Cpartial%5E2%20%2F%28%5Cpartial%20x%5E2%29%20a%20x%5E%7B2%7D%3D2a)的单变量事实)。

简要概括起来:

  • 1.CS229-LinearAlgebra - 图714

  • 1.CS229-LinearAlgebra - 图715 (如果1.CS229-LinearAlgebra - 图716是对称阵)

  • $\nabla_{x}^2 x^{T} A x=2 A $ (如果1.CS229-LinearAlgebra - 图717是对称阵)

4.4 最小二乘法

让我们应用上一节中得到的方程来推导最小二乘方程。假设我们得到矩阵1.CS229-LinearAlgebra - 图718(为了简单起见,我们假设1.CS229-LinearAlgebra - 图719是满秩)和向量1.CS229-LinearAlgebra - 图720,从而使1.CS229-LinearAlgebra - 图721#card=math&code=b%20%5Cnotin%20%5Cmathcal%7BR%7D%28A%29)。在这种情况下,我们将无法找到向量1.CS229-LinearAlgebra - 图722,由于1.CS229-LinearAlgebra - 图723,因此我们想要找到一个向量1.CS229-LinearAlgebra - 图724,使得1.CS229-LinearAlgebra - 图725尽可能接近 1.CS229-LinearAlgebra - 图726,用欧几里德范数的平方$|A x-b|_{2}^{2} $来衡量。

使用公式1.CS229-LinearAlgebra - 图727,我们可以得到:

1.CS229-LinearAlgebra - 图728%5E%7BT%7D(A%20x-b)%20%5C%5C%20%26%3Dx%5E%7BT%7D%20A%5E%7BT%7D%20A%20x-2%20b%5E%7BT%7D%20A%20x%2Bb%5E%7BT%7D%20b%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%5C%7CA%20x-b%5C%7C_%7B2%7D%5E%7B2%7D%20%26%3D%28A%20x-b%29%5E%7BT%7D%28A%20x-b%29%20%5C%5C%20%26%3Dx%5E%7BT%7D%20A%5E%7BT%7D%20A%20x-2%20b%5E%7BT%7D%20A%20x%2Bb%5E%7BT%7D%20b%20%5Cend%7Baligned%7D%0A)

根据1.CS229-LinearAlgebra - 图729的梯度,并利用上一节中推导的性质:

1.CS229-LinearAlgebra - 图730%20%26%3D%5Cnabla%7Bx%7D%20x%5E%7BT%7D%20A%5E%7BT%7D%20A%20x-%5Cnabla%7Bx%7D%202%20b%5E%7BT%7D%20A%20x%2B%5Cnabla%7Bx%7D%20b%5E%7BT%7D%20b%20%5C%5C%20%26%3D2%20A%5E%7BT%7D%20A%20x-2%20A%5E%7BT%7D%20b%20%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%20%5Cnabla%7Bx%7D%5Cleft%28x%5E%7BT%7D%20A%5E%7BT%7D%20A%20x-2%20b%5E%7BT%7D%20A%20x%2Bb%5E%7BT%7D%20b%5Cright%29%20%26%3D%5Cnabla%7Bx%7D%20x%5E%7BT%7D%20A%5E%7BT%7D%20A%20x-%5Cnabla%7Bx%7D%202%20b%5E%7BT%7D%20A%20x%2B%5Cnabla_%7Bx%7D%20b%5E%7BT%7D%20b%20%5C%5C%20%26%3D2%20A%5E%7BT%7D%20A%20x-2%20A%5E%7BT%7D%20b%20%5Cend%7Baligned%7D%0A)

将最后一个表达式设置为零,然后解出1.CS229-LinearAlgebra - 图731,得到了正规方程:

1.CS229-LinearAlgebra - 图732%5E%7B-1%7DA%5ETb%0A#card=math&code=x%20%3D%20%28A%5ETA%29%5E%7B-1%7DA%5ETb%0A)

这和我们在课堂上得到的相同。

4.5 行列式的梯度

现在让我们考虑一种情况,我们找到一个函数相对于矩阵的梯度,也就是说,对于1.CS229-LinearAlgebra - 图733,我们要找到1.CS229-LinearAlgebra - 图734。回想一下我们对行列式的讨论:

1.CS229-LinearAlgebra - 图735%5E%7Bi%2Bj%7D%20A%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad(%5Ctext%20%7B%20for%20any%20%7D%20j%20%5Cin%201%2C%20%5Cldots%2C%20n)%0A#card=math&code=%7CA%7C%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%28-1%29%5E%7Bi%2Bj%7D%20A%7Bi%20j%7D%5Cleft%7CA_%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%20%5Cquad%28%5Ctext%20%7B%20for%20any%20%7D%20j%20%5Cin%201%2C%20%5Cldots%2C%20n%29%0A)

所以:

1.CS229-LinearAlgebra - 图736%5E%7Bi%2Bj%7D%20A%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%3D(-1)%5E%7Bk%2B%5Cell%7D%5Cleft%7CA%7B%5Cbackslash%20k%2C%5Cbackslash%20%5Cell%7D%5Cright%7C%3D(%5Coperatorname%7Badj%7D(A))%7B%5Cell%20k%7D%0A#card=math&code=%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20A%7Bk%20%5Cell%7D%7D%7CA%7C%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20A%7Bk%20%5Cell%7D%7D%20%5Csum%7Bi%3D1%7D%5E%7Bn%7D%28-1%29%5E%7Bi%2Bj%7D%20A%7Bi%20j%7D%5Cleft%7CA%7B%5Cbackslash%20i%2C%20%5Cbackslash%20j%7D%5Cright%7C%3D%28-1%29%5E%7Bk%2B%5Cell%7D%5Cleft%7CA%7B%5Cbackslash%20k%2C%5Cbackslash%20%5Cell%7D%5Cright%7C%3D%28%5Coperatorname%7Badj%7D%28A%29%29_%7B%5Cell%20k%7D%0A)

从这里可以知道,它直接从伴随矩阵的性质得出:

1.CS229-LinearAlgebra - 图737)%5E%7BT%7D%3D%7CA%7C%20A%5E%7B-T%7D%0A#card=math&code=%5Cnabla_%7BA%7D%7CA%7C%3D%28%5Coperatorname%7Badj%7D%28A%29%29%5E%7BT%7D%3D%7CA%7C%20A%5E%7B-T%7D%0A)

现在我们来考虑函数1.CS229-LinearAlgebra - 图7381.CS229-LinearAlgebra - 图739%3D%5Clog%20%7CA%7C#card=math&code=f%28A%29%3D%5Clog%20%7CA%7C)。注意,我们必须将1.CS229-LinearAlgebra - 图740的域限制为正定矩阵,因为这确保了1.CS229-LinearAlgebra - 图741,因此1.CS229-LinearAlgebra - 图742的对数是实数。在这种情况下,我们可以使用链式法则(没什么奇怪的,只是单变量演算中的普通链式法则)来看看:

1.CS229-LinearAlgebra - 图743

从这一点可以明显看出:

1.CS229-LinearAlgebra - 图744

我们可以在最后一个表达式中删除转置,因为1.CS229-LinearAlgebra - 图745是对称的。注意与单值情况的相似性,其中1.CS229-LinearAlgebra - 图746%20%5Clog%20x%3D1%20%2F%20x#card=math&code=%5Cpartial%20%2F%28%5Cpartial%20x%29%20%5Clog%20x%3D1%20%2F%20x)。

4.6 特征值优化

最后,我们使用矩阵演算以直接导致特征值/特征向量分析的方式求解优化问题。 考虑以下等式约束优化问题:

1.CS229-LinearAlgebra - 图747

对于对称矩阵1.CS229-LinearAlgebra - 图748。求解等式约束优化问题的标准方法是采用拉格朗日形式,一种包含等式约束的目标函数,在这种情况下,拉格朗日函数可由以下公式给出:

1.CS229-LinearAlgebra - 图749%3Dx%5E%7BT%7D%20A%20x-%5Clambda%20x%5E%7BT%7D%20x%0A#card=math&code=%5Cmathcal%7BL%7D%28x%2C%20%5Clambda%29%3Dx%5E%7BT%7D%20A%20x-%5Clambda%20x%5E%7BT%7D%20x%0A)

其中,$\lambda 1.CS229-LinearAlgebra - 图750x*$处为零(这不是唯一的条件,但它是必需的)。也就是说,

1.CS229-LinearAlgebra - 图751%3D%5Cnabla%7Bx%7D%5Cleft(x%5E%7BT%7D%20A%20x-%5Clambda%20x%5E%7BT%7D%20x%5Cright)%3D2%20A%5E%7BT%7D%20x-2%20%5Clambda%20x%3D0%0A#card=math&code=%5Cnabla%7Bx%7D%20%5Cmathcal%7BL%7D%28x%2C%20%5Clambda%29%3D%5Cnabla_%7Bx%7D%5Cleft%28x%5E%7BT%7D%20A%20x-%5Clambda%20x%5E%7BT%7D%20x%5Cright%29%3D2%20A%5E%7BT%7D%20x-2%20%5Clambda%20x%3D0%0A)

请注意,这只是线性方程1.CS229-LinearAlgebra - 图752。 这表明假设1.CS229-LinearAlgebra - 图753,可能最大化(或最小化)1.CS229-LinearAlgebra - 图754的唯一点是1.CS229-LinearAlgebra - 图755的特征向量。

线性代数和概率论都已经翻译完毕,请关注github的更新,若有修改将在github上更新

欢迎大家提交PR,对语言进行润色。

翻译:黄海广