第八章

向量范数和矩阵范数

8.1赋范向量空间

为了定义两个向量或两个矩阵有多接近,并且为了定义向量或矩阵序列的收敛性,我们可以使用范数的概念。回想a,b∈rr+,然后=xz∈=ra−xib≥and0。还记得,如果z=√zz=√a2+zb2=(az+是theib∈cmodulusis a复数,with z)。

定义8.1.设e是一个向量空间,在一个域k上,k是一个域r的实数,或者是复数的域c。e上的范数是一个函数k k:e→r+,将所有x、y、z∈e和λ∈k k u:k的非负实数赋给任意向量u∈e,并满足以下条件

(n1)k x k≥0,kxk=0 iff x=0。(正性)(n2)kλxk=λkxk。(同质性(或标度))。

(n3)kx+yk≤kxk+kyk(三角形不等式)

向量空间e与范数kk一起称为范数向量空间。

通过(n2),设置λ=−1,我们得到

K−XK=K(−1)XK=−1 KXK=KXK;

也就是说,k−xk=kxk。从(n3)开始,我们有

kxk=kx−y+yk≤kx−yk+kyk,

这意味着

KXK−KYK≤KX−YK。

通过交换x和y并利用(n2)这个事实,

KY−XK=K−(X−Y)K=KX−YK,

二百四十五

我们也有

KYK−KXK≤KX−YK。

因此,

| Kxk−Kyk≤Kx−Yk,对于所有x,y∈e.()

然后,通过设置b,在(n2)中设置λ=0,我们推断k0k=0,而不假设(n1)。y=0 in(),我们得到

| kxk≤kxk,对于所有x∈e。

因此,条件kxk≥0 in(n1)来自(n2)和(n3),并且(n1)可以用较弱的条件代替。

(n1’)对于所有x∈e,如果kxk=0,则x=0,

满足公理(n2)和(n3)的k k:e→r函数称为半范数。由以上讨论可知,半范数对所有x∈e也具有kxk≥0的性质,k0k=0。

然而,可能存在非零向量x∈e,使得kxk=0。

我们来举几个赋范向量空间的例子。

例8.1。

\1. 设e=r,kxk=x,x的绝对值。

\2. 设e=c,kzk=z,z的模量。

\3. 设e=rn(或e=cn)。有三个标准规范。对于每个(x1,…,xn)∈e,我们有规范kxk1,定义如下:

KXK1=x1+········xn,

我们有欧几里得标准kxk2,定义如下:

sup-norm kxk∞定义如下:

Kxk=max={Xi}{ 1 } i=n}。

更一般地说,我们定义“p-norm”(对于p≥1)的方法是

kxkp=(x1 p+······xn p)1/p.

见图8.1至8.4。

img

图8.1:上图为x∈r2 kxk1≤1,下图为x∈r3 kxk1≤1。

除了“p-规范”,还有其他规范。下面是一些例子。

\1. 对于e=r2,k(u1,u2)k=u1+2 u2。

见图8.5。

\2. 对于e=r2,

.

见图8.6。

\3. 对于e=c2,k(u1,u2)k=u1+iu2+u1−iu2。

读者应该检查它们是否满足一个规范的所有公理。

需要做一些工作来证明p-范数的三角形不等式。

img

图8.2:上图为xk2≤1。_x∈r2 kxk2≤1,下图为x∈r3 k

提案8.1.如果e=cn或e=rn,对于每个实数p≥1,’p-范数实际上是一个范数。

证据。案例p=1和p=∞很容易,留给读者。如果p>1,那么让q>1这样

.

我们将利用以下事实:对于所有α,β∈R,如果α,β≥0,那么

.()

为了证明上述不等式,我们利用指数函数t 7→et满足以下凸不等式的事实:

eθx+(1−θ)y≤θex+(1−θ)ey,

网络错误
网络错误 网络错误 网络错误 网络错误

K1

K1

img

图8.3:上图为x∈r2 kxk∞≤1,下图为x∈r3 kxk∞≤1。

对于所有x,y∈r和0≤θ≤1的所有θ。

由于αβ=0的情况很小,我们假设α>0和β>0。如果我们将θ替换为

1/p,x乘p logα,y乘q对数β,得到

它简化为

如要求。

我们现在要证明,对于任意两个向量u,v∈e,(其中e是维度n),我们有

.()

img

图8.4:1-范数、欧几里得范数和sup范数的闭单元球之间的关系。

如果α=ui/uku=0KP和或vβ==0 v的不等式(),由于上述不等式是微不足道的,我们假设i/kvkq产生u 6=0和v=06。然后

对于i=1,…,n,通过总结这些不等式,我们得到

如要求。为了完成证明,我们只需证明(n3)属性有效,因为(n1)和(n2)是明确的。对于i=1,…,n,我们可以写

(ui+vi)p=ui(ui+vi)p−1+vi(ui+vi)p−1,

img

图8.5:单元闭合单元Ballu1+2 u2(u1,u2)∈r2 k(u1,u2)k≤1,其中k(u1,u2)k=

γ

所以通过总结这些方程,我们得到

利用不等式(),用v∈e,其中vi=(ui+vi)p−1,我们得到

.

但是,1/p+1/q=1意味着pq=p+q,也就是说,(p−1)q=p,所以我们有

会产生

.

由于ui+vi≤ui+vi,以上所述表示三角形不等式ku+vkp≤kukp+kvkp,如权利要求所述。

对于p>1和1/p+1/q=1,不等式

img

img

图8.6:单元闭合单元球(u1,u2)∈r2 k(u1,u2)k≤1,其中k(u1,u2)k=

.

被称为H–older不等式。对于p=2,这是柯西-施瓦兹不等式。实际上,如果我们定义Hermitian内积H−,−I on CN by

其中u=(u1,…,un)和v=(v1,…,vn),然后

所以H–older的不等式意味着以下不等式。

推论8.2。(H——年长者的不等式)对于任何实数p,q,这样p,q≥1和

(如果p=1,q=+∞如果q=1,p=+∞)我们有不等式

img

| hu,vi≤kukp kvkq,u,v∈cn.

对于p=2,这是标准的柯西-施瓦兹不等式。p-范数的三角形不等式,

被称为闵可夫斯基不平等。

当我们把厄米内积限制为实向量u,v∈rn时,我们得到

欧几里得内积

.

如果我们用列向量表示(通常)u=(u1,…,un)和v=(v1,…,vn)(在rn中),那么它们的欧几里得内积由下式给出:

hu,vi=u>v=v>u,

当u,v∈cn时,它们的厄米田内积由

hu,vi=v u=u v。特别是当u=v时,在复杂情况下,我们得到

img

在实际情况下,这变成

img

尽管这些符号很方便,但我们仍然建议您不要滥用它们;符号hu,vi更为固有,当我们的向量空间是无限维时仍然“有效”。

注:如果0<p<1,则x 7→kxkp不是范数,因为三角形不等式失败。例如,考虑x=(2,0)和y=(0,2)。那么x+y=(2,2),我们得到kxkp=(2p+0p)1/p=2,kkp=(0p+2p)1/p=2,kx+ykp=(2p+2p)1/p=2(p+1)/p。

因此,kx+ykp=2(p+1)/p,kxkp+kkkp=4=22。

由于02,所以2(p+1)/p>22=4,三角形不等式kx+ykp≤kxkp+kkkp失效。

观察k(1/2)x k p=(1/2)kxkp=k(1/2)ykp=(1/2)kkkp=1,k(1/2)(x+y)kp=21/p,由于p<1,我们得到21/p>2,所以

k(1/2)(x+y)k p=21/p>2=(1/2)kxkp+(1/2)kkkp,

地图x 7→kxkp不是凸的。

对于p=0,对于任何x∈rn,我们有

kxk0={{i {{ 1,…,n}〉Xi 6=0 },

x的非零分量的数目。图x 7→kxk0这次不是标准值,因为

AXIOM(N2)失效。例如,

k(1,0)k0=k(10,0)k0=1 6=10=10 k(1,0)k0。

地图x 7→kxk0也不是凸的。例如,

k(1/2)(2,2)k0=k(1,1)k0=2,

和k(2,0)k0=k(0,2)k0=1,

但k(1/2)(2,2)k0=2>1=(1/2)k(2,0)k0+(1/2)k(0,2)k0。

然而,“零范数”x 7→kxk0在机器学习中被用作一个规则化术语,它鼓励稀疏性,即增加向量x的零分量的数量。

下面的建议很容易说明。

提案8.3.以下不等式适用于所有x∈rn(或x∈cn):

命题8.3实际上是一个非常重要结果的特例:在有限维向量空间中,任何两个范数都是等价的。

定义8.2.对于任意(实或复)向量空间e,两个规范k ka和k kb是等价的,如果存在一些正实c1,c2>0,那么

kuka≤c1 kukb,kukb≤c2 kuka,表示所有u∈e。

给定n维向量空间上的任意范数k,对于e的任意基(e1,…,en),观察到对于任意向量x=x1e1+·········+xnen,我们得到kxk=kx1e1+·······························································定义为

kxk1=kx1e1+·····+xnenk=x1········+xn。

上面的意思是

| kuk−kvk≤ku−vk≤c ku−vk1,

这意味着下面的推论。

推论8.4.空间E,任意normu 7→kuk的映射相对于normu 7→kuk在有限维(复杂或真实)vectork k1上是连续的。

设为关于规范k k1的单位球面,即

.

现在是有限维向量空间的一个封闭有界子集,因此由Heine–Borel(或等效地,由Bolzano–Weiertrass)压缩。另一方面,非空紧集上的连续实值函数具有最小值和最大值,这是一个众所周知的分析结果。利用这些事实,我们可以证明以下重要定理:

定理8.5。如果e是有限维的实向量空间或复向量空间,那么e上的任意两个范数都是等价的。

证据。足以证明任何范数k k等于1-范数。我们已经证明了函数x 7→k x k相对于范数k k1是连续的,并且我们观察到单位球面是紧凑的。现在我们回顾一下,因为函数f:x 7→kxk是连续的,并且因为它是紧凑的,所以函数f有一个最小m和一个最大m,因为exk1x=1k永远不会为零,所以我们必须有m>0。因此,我们证明了如果k

0<m≤kxk≤m,

所以对于x 6=0的x∈e,我们得到

m≤kx/kxk1k≤m,

这意味着

m kxk1≤kxk≤m kxk1。

由于上述不等式具有无足轻重的生命等效性,如所声称的.x=0,我们刚刚证明了k k和k k1是

img

注:P为N×N对称正定矩阵。立即确认地图x 7→kxkp由

kxkp=(x>px)1/2

是RN上的范数,称为二次范数。通过一些凸分析(L–owner–john椭球体),可以证明RN上的任何范数k k都可以近似为二次范数,即存在二次范数k kp,从而

img

kxkp≤kxk≤√nkxkp,所有x∈rn;

见Boyd和Vandenberghe[29]第8.4.1节。

接下来我们将讨论矩阵上的规范。

8.2矩阵规范

为了便于解释,我们将考虑平方n×nnmatries的向量空间mn(r)和mn(c)。大多数结果也适用于空格。因为n×n矩阵可以相乘,所以矩阵范数ism,n(r)和m m,n(c)的思想是,矩形m×的矩阵范数ism,n(r)和mm,n(c)在矩阵相乘方面应该表现得“好”。

定义8.3.方阵n×n矩阵空间上的矩阵范数k k k(k),k=r或k=c,是向量空间mn(k)上的范数,其附加性质称为次多积性,即kabk≤kakkbk,

对于所有a,b∈mn(k)。满足上述性质的矩阵上的范数通常称为子乘法矩阵范数。

由于i2=i,从kik=ki2k≤kik2,我们得到了每个矩阵范数的kik≥1。

在给出矩阵规范的例子之前,我们需要回顾一些关于

img

矩阵。给定任意矩阵a=(aij)∈mm,n(c),a的共轭a是这样的矩阵:

img

aij=aij,1≤i≤m,1≤j≤n。

a的转置是n×m矩阵a>这样

img

a的伴随是n×m矩阵a,因此

img

A=(A>)=(A)>。

当a是实矩阵时,a=a>。矩阵a∈mn(c)是厄米提安如果

A=A.

8.2。矩阵范数

如果a是实矩阵(a∈mn(r)),我们认为a是对称的,如果

A>=A。

矩阵a∈mn(c)是正态的,如果

a a=a a,

如果A是一个实矩阵,它是正常的,如果

a a>=a>a。

矩阵u∈mn(c)是一元如果

u u=u u=i.

实矩阵q∈mn(r)是正交的,如果

q q>=q>q=i。

给定任意矩阵a=(aij)∈mn(c),a的迹Tr(a)是其对角元素Tr(a)=a11+······+ann的和。

很容易显示出轨迹是线性图,因此

Tr(λa)=λTr(a)

和Tr(a+b)=Tr(a)+Tr(b)。

此外,如果a是m×n矩阵,b是n×m矩阵,则不难证明

tr(ab)=tr(ba)。

我们还回顾了特征值和特征向量。我们满足于关于矩阵的定义。稍后将进行更全面的治疗(见第14章)。

定义8.4.给定任意一个方阵a∈mn(c),如果有一些非零向量u∈cn,则复数λ∈c是a的特征值,这样

au=λu.

如果λ是a的特征值,则非零向量u∈cn使au=λu称为与λ关联的a的特征向量;与零向量一起,这些特征向量形成eλ(a)表示的cn的子空间,并称为与λ关联的特征空间。

注:注意定义8.4要求特征向量非零。这一要求的一个有点不幸的结果是,由于零向量丢失,特征向量集不是子空间!在积极方面,只要涉及特征向量,就不需要说它们是非零的。特征向量是非零的事实在所有涉及它们的论点中都被隐式地使用,因此,规定特征向量应该是非零似乎更安全(但也许不是很优雅)。

如果a是一个平方实矩阵a∈mn(r),那么我们将定义8.4限定为实特征值λ∈r和实特征向量。然而,需要注意的是,虽然每个复矩阵总是至少有一些复特征值,但一个实矩阵可能没有任何实特征值。例如,矩阵

img

具有复杂特征值i和−i,但没有实际特征值。因此,即使对于实矩阵,我们通常也考虑复特征值。

观察到λ∈c是a的特征值

• 非零向量u∈cn的iff au=λu

• iff(λi−a)u=0

• 如果矩阵λi−a定义了一个具有非零核的线性映射,即,

• iffλi−a不可逆。

然而,根据命题6.10,λi−a不是可逆的iff

Det(λi−a)=0。

现在,det(λi−a)实际上是形式不确定的λ中n次多项式。

λn−tr(a)λn−1+····+(−1)n det(a)。

因此,我们看到a的特征值是上述多项式的零(也称为根)。因为n次的每一个复多项式都有n个根,用它们的多重性来计算,所以我们有以下定义:

定义8.5.给定任意平方n×n矩阵a∈mn(c),多项式

det(λi−a)=λn−tr(a)λn−1+····+(−1)n det(a)

被称为a的特征多项式。特征多项式的n(不一定是不同的)根λ1,…,λn都是a的特征值,构成a的谱。

ρ(a)=maxλi|

1≤I≤N

是A特征值的最大模,称为A的谱半径。

8.2。矩阵范数

由于特征值λ1,…,a的λn是多项式的零。

det(λi−a)=λn−tr(a)λn−1+·····+(−1)n det(a)、

我们推断(详情见第14.1节)

Tr(a)=λ1+·····+λn Det(a)=λ1···························

提案8.6.对于mn(c)上的任意矩阵范数k k k和任意平方n×n矩阵a∈mn(c),我们得到

ρ(a)≤kak.

证据。设λ为λ为最大值的a的特征值,即λ=ρ(a)。如果u(=0)6是与λ相关的任何特征向量,如果u是n×n矩阵,其列均为u,那么au=λu意味着

Au=λu,

从那以后

|λkuk=kλuk=kauk≤kakkuk

而u=06,我们有kuk 6=0,得到

ρ(a)=λ≤kak,

如要求。

命题8.6也适用于mn(r)上的任何实矩阵范数k k,但证明更为微妙,需要诱导范数的概念。在给出定义8.7之后,我们证明了这一点。

结果表明,如果a是实n×n对称矩阵,那么a的特征值都是实的,并且有一些正交矩阵q

a=qdiag(λ1,…,λn)q>,

其中diag(λ1,…,λn)表示其唯一非零项(如果有)是其对角项的矩阵,这是a的(实)特征值。同样,如果a是一个复杂的n×n厄米特矩阵,则a的特征值都是实的,并且存在一些单位矩阵u,因此

a=udiag(λ1,…,λn)u,

其中diag(λ1,…,λn)表示其唯一非零项(如有)是其对角线项的矩阵,这是a的(实)特征值。这些结果的证明见第16章。

现在我们回到矩阵规范。我们从所谓的frobenius范数开始,它就是cn2上的范数k k2,其中n×n矩阵a被视为将a的行(或列)连接在一起得到的向量。读者应该检查任意n×n复矩阵a=(aij)。

.

定义8.6.定义了frobenius范数k kf,使每平方n×n矩阵a∈mn(c),

.

下面的命题表明,Frobenius范数是一个满足其它优良性质的矩阵范数。

提案8.7.Mn(c)上的frobenius norm k kf满足以下特性:

(1) 它是一个矩阵范数,即kabkf≤kakf kbkf,对于所有a,b∈mn(c)。

(2) 它是幺正不变的,这意味着对于所有的幺正矩阵u,v,我们有

kakf=kuakf=kav kf=kuav kf。

(3) pρ(a_a)≤kakf≤√npρ(a_a),对于所有a∈mn(c)。

证据。(1)唯一需要证明的属性是事实kabkf≤kakf kbkf。这源于柯西-施瓦兹不等式:

.

(2) 我们有

.

身份

kakf=夸夫肯德基

从前两个开始。

(3) 众所周知,矩阵的迹等于其特征值之和。此外,a a是对称半正定的(这意味着它的特征值是非负的),所以ρ(a a)是a a的最大特征值,并且

ρ(a_a)≤tr(a a)≤nρ(a_a)、

它通过取平方根产生(3)。

注:弗罗贝尼乌斯范数又称希尔伯特-施密特范数或舒尔范数。这么多与这么简单的事情有关的著名的名字!

8.3附属规范

我们现在给出了另一种使用从属规范获得矩阵规范的方法。首先,我们需要一个命题,证明在有限维空间中,矩阵诱导的线性映射是有界的,因此是连续的。

提案8.8.对于≥0c上的每一个范数k k c a,使得n(或rn),对于每一个矩阵a∈mn(c)(或a∈mn(r)),都有一个实常数。

kauk≤ca kuk,

对于每一个向量u∈cn(如果a是实的,则为u∈rn)。

证据。对于cn(或rn)的每个基(e1,…,en),对于每个向量u=u1e1+·····+unen,我们有

kauk=ku1a(e1)+·····+una(en)k

≤u1 ka(e1)k+·················································

式中,c1=max1≤i≤n kca2(e>i)0k。根据定理8.5,kuk1≤c2 k uk对于所有的uk k是等效的,这意味着k k1和k k1是等效的,因此

有一些常数

kauk≤ca kuk,

其中ca=c1c2。

命题8.8表示有限维空间上的每一个线性映射都是有界的。这意味着有限维空间上的每一个线性映射都是连续的。实际上,不难证明赋范向量空间e上的线性映射是有界的,只要它是连续的,不管e的维数是多少。

命题8.8意味着对于每一个矩阵a∈mn(c)(或a∈mn(r)),

.

因为kλuk=λkuk,对于每个非零向量x,我们有

这意味着

.

类似地

.

上述考虑证明了以下定义的合理性。

定义8.7.如果k k是cn上的任何范数,我们定义mn(c)上的k kop函数

.

通过范数k.a 7→kakop被称为次矩阵范数或算子范数

矩阵A的算符范数的另一个表示法(特别是Horn和Johnson[92]使用的)是A。

很容易检查函数a 7→kakop是否确实是一个规范,并且根据定义,它满足属性

Kaxk≤Kakop Kxk,对于所有x∈cn。

标准K konocon-mn。由于上述不等式的结果,我们假设满足上述性质的(c)服从于向量。

标准K K K

Kabxk≤Kakop Kbxk≤Kakop Kbxk,

对于所有x∈cn,这意味着

Kabkop≤所有a,b∈mn(c)的Kakop Kbkop,

表明7→Kakop是一个矩阵范数(它是次乘法)。

注意,操作员规范也由

kakop=infλ∈r kaxk≤λkxk,对于所有x∈cn。

c由于函数kcxn−使得yk)和单位spherekxxx=1→k7和xk kaxk=kakop。X

等价地,有一些x∈cn,使得x 6=0和

Kaxk=Kakop Kxk。

运算符规范的定义也意味着

kikop=1.

上述结果表明,Frobenius范数不是一个从属矩阵范数(为什么?).

如果k k是cn上的向量范数,则它所诱导的算子范数k kop适用于mn(c)中的矩阵。如果我们小心地表示向量和矩阵,这样就不会产生混淆,例如,通过对向量使用小写字母,对矩阵使用大写字母,应该很清楚,kakop是矩阵A的运算符范数,kxk是x的向量范数。因此,遵循MMON练习减轻符号,我们将去掉下标“op”,只写kak而不是kakop。

从属范数的概念可以略作概括。

定义8.8.k k k如果k=r或k=c,对于任意范数k kison m次坐标,n(k),对于任意两个范数k k a和k kb on km,我们说,范数k k k on kn和k kb kaxkb≤kakkxka对于所有a∈mm,n(k)和所有x∈kn。

如果

备注:对于cn上的任何范数k k,我们可以通过以下公式定义mn(r)上的k kr函数:

.

函数a 7→kak r是mn(r)上的矩阵范数,kakr≤kak,

对于所有实矩阵a∈mn(r)。然而,在Cn和实矩阵A上构造向量范数k k是可能的。

Kakr<Kak.

为了避免这类困难,我们在mn(c)上定义了次矩阵规范。幸运的是,对于向量范数k k1、k k2和k k∞,结果是kakr=kak。

我们现在证明命题8.6为实矩阵规范。

提案8.9.对于mn(r)上的任意矩阵范数k k k和任意平方n×n矩阵

a∈mn(r),我们有ρ(a)≤kak。

证据。我们遵循丹尼斯·瑟尔的书[151]中的证据。如果a是实矩阵,问题是与最大模特征值相关的特征向量可能是复杂的。我们使用的技巧基于这样一个事实:对于每个矩阵A(真实或复杂),

ρ(a k)=(ρ(a))k,

剩下的是一个练习(使用命题14.7,它表明如果(λ1,…,λn)是a的(不一定是不同的)特征值,那么()是k的特征值,对于k≥1)。

在cn上选取任意复杂矩阵范数k kc(例如,frobenius范数,或由cn上的范数诱导的任何从属矩阵范数)。K-k c对实矩阵的约束是一个实范数,我们也用维数n2表示,这里有一个常数c>K-k0c,根据定理8.5,因为N(r)是有限的。

Kbkc≤c Kbk,对于所有b∈mn(r)。

而且,对于每一个,因为k kk≥1,对于每一个实n×n矩阵,我们有一个,根据命题8.6,ρ(ak)≤

是矩阵范数,

对于所有k≥1。接下来是

ρ(a)≤c1/k kak,对于所有k≥1。

但是,由于c>0,我们得到limk7→∞c1/k=1(我们得到lim=0)。因此,我们得出结论:

ρ(a)≤kak,

根据需要。

我们现在明确地确定与向量规范k k1、k k2和k∞相关的从属矩阵规范是什么。

提案8.10.对于每个平方矩阵a=(aij)∈mn(c),我们有

.

注意,kak1是a列的1-范数的最大值,k a k是a行的1-范数的最大值。此外,ka k2=kak2,范数∞k k2是单位不变的,这意味着

Kak2=Kuav k2

对于所有的单位矩阵u,v,如果a是一个正规矩阵,那么kak2=ρ(a)。

证据。对于每个向量u,我们有

这意味着

.

它仍然表明平等是可以实现的。为此,让j0成为这样一个索引:

对于所有i=6 j0和uj0=1,设ui=0。

以同样的方式,我们

这意味着

.

为了实现相等,让I0是这样一个索引:

最大x aij=x ai0j。我

J J

读者应该检查

img

作品。

我们有

kak22=supn kaxk22=supn x a ax.x∈c x∈c

x x=1 x x=1

因为矩阵A A是对称的,所以它具有实特征值,并且可以相对于一个单位矩阵对角化。这些事实可以用来证明函数x 7→x a ax在球面x x=1上的最大值等于a a的最大特征值,即ρ(a a)。我们把证明推迟到讨论优化二次函数为止。因此,

img

kak2=pρ(a_a)。

现在使用证明ρ(a a)=ρ(aa)。首先假设ρ(a_a)>0。在这种情况下,有一些特征向量u(=0)6这样

a a u=ρ(a a)u,

既然ρ(a a)>0,我们必须得到au=06。因为au=06,

a a(au)=a(a au)=ρ(a a)au

这意味着ρ(aa)是aa的特征值,因此

ρ(a_a)≤ρ(aa)。

因为(a)=a,用a替换a,我们得到

ρ(a a)≤ρ(a a),

所以ρ(a a)=ρ(aa)。

如果ρ(a a)=0,那么我们必须将ρ(aa)=0,因为根据先前的推理,否则我们将得到ρ(a a)=ρ(aa)>0。因此,无论如何

.

对于任何单位矩阵u和v,证明v a av和a a具有相同的特征值是一个简单的练习,因此

以及

.

最后,如果a是一个正规矩阵(aa=a a),则可以证明存在一些单位矩阵u,因此

A=Udu,

其中d=diag(λ1,…,λn)是由a的特征值组成的对角矩阵,因此

a a=(u du)udu=ud u udu=ud du。

然而,d d=diag(λ1 2,…,λn 2),这证明

ρ(a_a)=ρ(d_d)=maxλi 2=(ρ(a))2,

所以kak2=ρ(a)。

定义8.9.对于a=(aij)∈mn(c),范数kak2=通常称为谱范数。

观察8.7号提案的性质(3)表明

kak2≤kakf≤√nkak2,

这表明,弗罗贝尼乌斯范数是谱范数的上界。弗罗贝尼乌斯范数比谱范数更容易计算。

读者将检查上述证明是否仍然成立,如果矩阵A是真的(将幺正变换为正交),确认向量normsrectangular m×nk kmatries,1,k k2和k k∞的kakr=kak的事实。用同样的公式也很容易验证这个证明是否成立。同样地,由

img

也是矩形矩阵的范数。对于这些规范,只要AB有意义,我们就得到kabk≤kakkbk。

注:可以看出,对于任意两个实数p,q≥1,当=1时,我们得到ka kq=kakp=sup<(y ax)kxkp=1,kykq=1 sup hax,yi kxkp=1,kykq=1,其中ka kq和kakp是操作规范。

注:设(e,k k)和(对于范数onf,k)为两个赋范向量空间(为便于表示,e和f,这不应引起任何混淆)。我们用同样的符号来回忆,函数f k k:e→f是连续的,如果对于每一个a∈e,对于每一个>0,有一些η>0,这样对于所有x∈e,

如果kx−ak≤η,则

不难证明线性图f:e→f是连续的,如果有常数c≥0,那么

kf(x)k≤c kxk,对于所有x∈e。

如果是这样的话,我们就说从f开始的所有连续(等价的,有界)线性映射的集合是有界的(或线性有界算子)。我们删除到f,然后我们可以定义(e;f)表示

l(e;f)上的算符范数(或次范数)k k如下:对于每个f∈l(e;f),

或等同于

kf k=infλ∈r kf(x)k≤λkxk,对于所有x∈e。

不难看出图F7→Kfk是满足该特性的L(e;f)上的一个标准。

kf(x)k≤kfkkkxk

对于所有x∈e,如果f∈l(e;f)和g∈l(f;g),则kg fk≤kgkkkkfk。

算子规范在函数分析中起着重要作用,尤其是当空间e和f是完整的时。

8.4涉及从属规范的不平等

在本节中,我们将讨论本章最后三节中某些证明所需的两个技术不等式。首先,我们证明了当我们处理矩阵的条件数时需要的一个命题。

提案8.11.设k k为任意矩阵范数,设b∈mn(c),使kbk<1。(1)如果k k是次矩阵范数,那么矩阵i+b是可逆的,并且

.

(2)如果I+B形式的矩阵是奇异的,那么对于每个矩阵范数(不一定是从属的),Kbk≥1。

证据。(1)观察(i+b)u=0表示bu=-u,所以kuk=kbuk。

回想一下

Kbuk≤Kbkkuk

为每一个下属规范。因为kBk<1,如果u 6=0,那么kBk<kuk,

这与kuk=kbuk相矛盾。因此,我们必须有u=0,证明i+b是内射的,因此是双射的,即可逆的。然后我们有了

(i+b)−1+b(i+b)−1=(i+b)(i+b)−1=i,

8.4。涉及从属规范的不等式

会产生

最后,

.

(2)如果i+b是奇异的,那么−1是b的特征值,根据命题8.6,我们得到ρ(b)≤kbk,这意味着1≤ρ(b)≤kbk。

第二个不等式是处理矩阵幂序列收敛性所需要的结果。

提案8.12。对于每一个矩阵a∈mn(c),对于每一个,都有一些从属矩阵范数k k,这样

img

证据。根据定理14.5,存在一些可逆矩阵u和一些上三角矩阵t,从而

A=UTU−1,

说吧。

λ1 t12 t13··t1n

0λ2 t23···t2n

T=………………,

γ

0 0···λn−1 tn−1n

0 0···0λn

其中,λ1,…,λn是a的特征值。对于每个δ=06,定义对角矩阵

dδ=diag(1,δ,δ2,…,δn-1)

网络错误
网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误

现在定义函数k k:mn(c)→r by

每b∈mn(c)。然后,很容易验证上述函数是从属于向量范数的矩阵范数

.

此外,对于每>0,我们可以选择δ,以便

根据范数k k的定义,我们得到∞

img

这表明我们所构造的范数满足所需的属性。注意等式通常是不可能的;考虑矩阵

其中,ρ(a)=0<kak,因为a=0.6

8.5矩阵的条件数

不幸的是,存在线性系统ax=b,其解在b或a的小扰动下不稳定。

.

读者应该检查它是否有解决方案x=(1,1,1,1)。如果我们稍微干扰右边的b+∆b,其中

我们得到了新的系统

.

新的解决方案是x+∆x=(9.2、-12.6、4.5、-1.1),其中

∆X=(9.2、−12.6,4.5、−1.1)−(1,1,1,1)=(8.2、−13.6,3.5、−2.1)。然后是数据相对于一个范数的相对误差,

在输入中产生相对错误

.

因此,数据中1/300阶的相对阶数在解中产生7/1阶的相对误差,这表示2100阶相对误差的放大。现在让我们稍微扰动矩阵,得到新的系统。

.

这一次,解决方案是x+∆x=(−81137、−34,22)。同样,数据中的一个小变化会极大地改变结果。然而,原始系统是对称的,有行列式1,并且有整数项。问题是系统的矩阵条件很差,我们现在将解释这个概念。

给定一个可逆矩阵A,首先假设我们将b扰动到b+∆b,然后让我们分析两个系统的两个精确解x和x+∆x之间的变化。

AX=B

A(X+∆X)=B+∆B。

我们还假设我们有一些范数k k,并且我们在矩阵上使用从属矩阵范数。从

AX=B

a x+a∆x=b+∆b,

我们得到

∆x=A−1∆b,

我们得出结论

img

因此,结果k∆xk/kxk中的相对误差以数据中的相对误差k∆bk/kbk为界,如下所示:

.

现在让我们假设A受A+的扰动,让我们分析两个系统的精确解之间的变化。

AX=B

(a+∆a)(x+∆x)=b.

第二个方程得出a x+a∆x+∆a(x+∆x)=b,减去第一个方程,我们得到

接下来是

可以重写为

.

请注意,即使矩阵a+∆a是奇异的,上述推理也是有效的,只要不合理地期望Ratiox+∆x是第二个系统的解。此外,如果k∆xk/kx+∆xk足够小,那么它就是∆xk/kxk。稍后会更精确地说明这一点。

总之,对于这两个扰动中的每一个,我们发现结果因子中的相对误差是最优的,这表明了以下定义:以数据中的相对误差为界,乘以Kakka-1K。事实上,这

定义8.10.对于任何从属矩阵范数k k,对于任何可逆矩阵a,数字condition(

称为相对于k k的条件数。

条件数cond(a)测量线性系统ax=b对数据b和a变化的敏感性;一种被称为系统条件的特征。因此,当我们说一个线性系统是病态的时,我们的意思是它的矩阵的条件数很大。我们可以将前面的分析尖锐化如下:

提案8.13.设a为可逆矩阵,设x和x+为线性系统的解。

AX=B

A(X+∆X)=B+∆B。

如果b 6=0,那么不等式

康德

是最好的。这意味着对于给定的矩阵A,存在一些向量b 6=0和∆b6=0,其中等式成立。

有一些向量机存在。我们已经证明了不平等。现在,因为x 6=0和∆b 6=0,其中k k是次矩阵范数,

和kaxk=kakkxk。

img

提案8.14.设a为可逆矩阵,设x和x+为两个系统的解。

AX=B

(a+∆a)(x+∆x)=b.

如果b 6=0,那么不等式

康德

是最好的。这意味着在给定矩阵A的情况下,存在一个向量b 6=0和一个矩阵立场,如果k∆∆aak=06<1/等式成立。此外,如果kA−1K),我们得到k∆ak足够小(对于

条件());

事实上,我们有康德。

证据。第一个不平等已经被证明。为了证明可以实现相等,让w是任何向量,使得w 6=0和

设β6=0为任意实数。现在向量

∆x=−βa−1w x+∆x=w

B=(A+βi)W

和矩阵

∆a=βi

使方程变得时髦

.

最后,我们可以选取β,这样它就不等于a的任何特征值,所以a+∆a=a+βi是可逆的,并且是非零的。

如果k∆ak<1/ka−1K,则

因此,根据命题8.11,矩阵i+a−1∆a是可逆的,并且

.

回想一下我们之前证明的

∆x=−a−1∆a(x+∆x)、

把x加到两边,把右边移到左边,得到

(i+a−1∆a)(x+∆x)=x,

因此

X+∆X=(I+A−1∆A)−1X,

会产生

∆x=(i+a−1∆a)−1−i)x=(i+a−1∆a)−1(i−(i+a−1∆a))x=−(i+a−1∆a)−1a−1(∆a)x。

从这个和

我们得到

可以写为

康德

这就是我们所寻求的那种不平等。

注:如果A和B同时受到扰动,则得到“扰动”系统。

(a+∆a)(x+∆x)=b+∆b,

可以看出,如果k∆ak<1/ka−1K(且b=0)6,那么

见德梅尔[49]第2.2节和霍恩和约翰逊[92]第5.8节。

我们现在列出条件数的一些性质,并计算出光谱范数(k k2引起的矩阵范数)的cond(a)是什么。首先,我们需要引入一个非常重要的矩阵因子分解,即奇异值分解,简而言之,SVD。

可以看出(见第20.2节),在任意n×n矩阵a∈mn(c)下,存在两个单位矩阵u和v,一个实对角矩阵∑=diag(σ1,…,σn),其中σ1≥σ2≥······························

A=V∑U。

定义8.11.给定一个复n×n矩阵a,使a=v∑u>的三重(u,v,∑)式,其中u和v是n×n的一元矩阵,∑diag(σ1,…,σn)是实数的对角矩阵,σ1≥σ2≥········································u和v是正交矩阵,非负数σ1,…,σn被称为a的奇异值。

因式分解a=v∑u意味着

A A=U∑2U和AA=V∑2V,

这表明A A和AA的特征值,U列是A A对应的eivenvectors,V列是AA对应的eivenvectors。

由于是a a(和aa)的最大特征值,请注意pρ(a a)=pρ(aa)=σ1。

推论8.15。矩阵A的谱范数kak2等于a的最大奇异值。同样,矩阵A的谱范数kak2等于矩阵A的∞范数。

奇异值向量,

.

因为矩阵a的frobinius范数由kakf=ptr(a a)定义,并且

TR(

A A的特征值在哪里,我们看到了

.

推论8.16。矩阵的Frobenius范数由其奇异值向量的2-范数给出;kakf=k(σ1,…,σn)k2。

对于正态矩阵,如果λ1,…,则λn是a的(复杂)特征值,则

σi=λi,1≤i≤n。

提案8.17。对于每一个可逆矩阵a∈mn(c),下列性质成立:

(1)

cond(a)≥1,cond(a)=cond(a−1)cond(αa)=cond(a)表示所有α∈c−0。

(2)如果cond2(a)表示a相对于光谱范数的条件数,那么

康德

式中,σ1≥···········≥σn为a(3)的奇异值,如果矩阵a为正态,则

康德

式中,λ1,…,λn是a的特征值,因此λ1≥····≥λn。

(4) 如果a是一元矩阵或正交矩阵,则

条件2(a)=1.

(5) 条件数cond2(a)在幺正变换下是不变的,这意味着cond2(a)=cond2(ua)=cond2(av)。

对于所有的幺正矩阵u和v。

证据。(1)中的性质是从属矩阵范数性质的直接后果。特别是,aa−1=i意味着

=康德(A)。

(2) 我们之前已经证明了),这是a a最大特征值的模的平方。因为我们刚刚看到,其中,σ1,…,σn的特征值是a的奇异值,我们有

Kak2=σ1。

如果a是可逆的,那么σ1≥·····················································

因此

康德

(3) 这是因为对于正态矩阵,kak2=ρ(a)。

(4) 如果a是一个单位矩阵,那么a a=aa=i,那么ρ(a a)=1,和kak2=

pρ(a_a)=1.我们还有kA−1k2=kA k2=pρ(a a)=1,因此cond(a)=1。

(5) 这直接来自光谱范数的一元化不变性。

命题8.17(4)表明,幺正变换和正交变换是非常好的条件,第(5)部分表明,幺正变换保留了条件数。

为了计算cond2(a),我们需要计算a的顶部和底部奇异值,这可能很困难。不等式kak2≤kakf≤√nkak2,

如果可以确定a−1,则在获得cond2(a)=kak2 ka−1k2的近似值时可能很有用。

备注:Cond2(a)有一个有趣的几何特征。如果θ(a)表示所有正交向量对上向量a u和a v之间的最小角度,作为u和v范围,则可以证明

cond2(a)=cot(θ(a)/2))。

因此,如果a接近奇异,那么会有一些正交对u,v,使得au和av接近平行;角度θ(a)将是小的,cot(θ(a)/2)将是大的。有关更多详细信息,请参见Horn和Johnson[92](第5.8节和第7.4节)。

应该注意的是,一般情况下(如果a不是一个正规矩阵),一个矩阵可能有一个非常大的条件数,即使它的所有特征值都是相同的!例如,如果我们考虑n×n矩阵

网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误 网络错误

结果表明,条件2(a)≥2N−1。

具有非常大条件数的矩阵的经典例子是希尔伯特矩阵H(n),n×n矩阵

例如,当n=5时,

.

可以看出,cond2(h(5))约为4.77×105。

希尔伯特于1894年在研究近似理论中的一个问题时引入了这些矩阵。希尔伯特矩阵h(n)是对称正定的。可以给出其行列式的闭式公式(它是所谓的柯西行列式的一种特殊形式);见问题8.15。h(n)的倒数也可以明确计算;见问题8.15。可以看出

img

Cond2(H(N))=O((1+√2)4N/√N)。

回到我们的矩阵

它是一个对称正定矩阵,可以证明它的特征值,在这种情况下,由于a是spd,它也是它的奇异值,是

λ1≈30.2887>λ2≈3.858>λ3≈0.8431>λ4≈0.01015,

所以这个条件。

读者应检查,对于之前使用的右侧b的扰动,相对误差k∆xk/kxk和k∆xk/kxk满足不等式。

康德

接近平等。

8.6。规范的应用:不一致线性系统

8.6规范的应用:解决不一致线性系统

求解不一致线性系统ax=b的问题在实践中经常出现。这是一个b不属于a列空间的系统,通常方程多于变量。因此,这样的系统没有解决方案。然而,我们仍然希望“解决”这样一个系统,至少大致上是这样。

这样的系统通常在试图适应某些数据时出现。例如,我们可能有一组三维数据点

P1,…,PN,

我们有理由相信这些点几乎是共面的。我们想找到一个最适合我们数据点的平面。回想一下,平面方程是

αx+βy+γz+δ=0,

(α,β,γ)=(06,0,0)。因此,每个平面要么不平行于x轴(α=0)6,要么不平行于y轴(β=0)6,要么不平行于z轴(γ=0)。

假设我们有理由相信我们要找的平面不平行于z轴。如果我们错了,在最小二乘解中,其中一个系数,α,β,将会非常大。如果γ=06,那么我们可以假设我们的平面是由一个形式方程给出的。

Z=ax+x+d,

我们希望这个方程满足所有的π,这导致n个方程组在3个未知数a,b,d中,具有π=(Xi,Yi,Zi);

ax1+by1+d=z1……

axn+byn+d=zn。

然而,如果n大于3,这样的系统通常没有解决方案。由于上述系统不能完全解决,我们可以尝试找到一个解决方案(A,B,D),使

最小二乘误差

.

这就是勒让德和高斯在19世纪初发现的!

一般来说,给定一个线性系统

ax=b,

我们解决了最小二乘问题:最小化。

幸运的是,每个n×m矩阵a都可以写成

A=V度>

其中u和v是正交的,d是具有非负项的矩形对角矩阵(奇异值分解或SVD);见第20章。

SVD可以用来解决不一致的系统。如第21章所示,存在一个最小范数的向量x,使kax−bk2最小化。它由(penrose)的伪逆(本身由SVD给出)给出。

据观察,在最小二乘意义上的求解可能会给“异常值”带来过多的权重,也就是说,在最佳拟合平面之外的点。在这种情况下,最好是最小化(1-范数)

.

这似乎不是线性问题,但我们可以使用一个技巧将这个最小化问题转换为线性程序(这意味着一个涉及线性约束的问题)。

注意x=max x、−x。因此,通过引入新的变量e1,…,en,我们的最小化问题等价于线性规划(lp):

网络错误 网络错误
网络错误 网络错误

注意约束条件等于

ei≥axi+byi+d−zi,1≤i≤n。

对于一个最优解,我们必须有等式,否则我们可以减少一些ei,得到一个更好的解。当然,我们不再处理“纯”线性代数,因为我们的约束是不等式。

我们现在不喜欢学习线性规划,但是上面的例子提供了一个学习更多线性规划的好理由!

8.7序列和序列的限制

如果x∈r或x∈c和if/(1x−<x1),众所周知,当n趋于无穷大时,我们写

收敛到极限1

.

8.7。序列和序列的极限

例如,

.

同样地,总和

img

当n变为无穷大时,每x(r或c)收敛到ex。如果我们用复数n×n矩阵a的实数替换x呢?

部分和仍然有意义,但我们必须定义矩阵序列的极限。这可以在任何赋范向量空间中完成。

定义8.12.设(e,kk)为赋范向量空间。e中的序列(u n)n∈n是任意函数u:n→e,对于任意v∈e,序列(un)收敛到v(v是序列(un)的极限),如果对于每>0,有一个整数n>0,这样

对于所有n≥n。

通常我们假设一个序列被n−0索引,也就是说,它的第一个项是u1而不是u0。

如果序列(un)收敛到v,那么由于三角形不等式

kum−unk≤kum−vk+kv−unk,

我们可以看到,对于每>0,我们可以找到n>0,这样2,所以

对于所有m,n≥n。

上述性质对于收敛序列是必要的,但不一定足够。例如,如果e=q,有满足上述条件的理性序列,但其极限不是有理数。例如,序列收敛到e,序列收敛到π/4,但e和π/4不是理性的(事实上,它们是超越的)。然而,R是由Q构造的,以保证具有上述性质的序列收敛,C也是。

定义8.13.给定一个赋范向量空间(e,k k),序列(un)是一个柯西序列,如果对于每>0,有一些n>0,这样

对于所有m,n≥n。

如果每个柯西序列都收敛,那么我们就说e是完整的。完全赋范向量空间也称为Banach空间。

R的一个基本性质是它是完整的。紧接着,C也完成了。如果e是一个有限维实向量空间或复向量空间,由于任意两个范数相等,我们可以选取∞范数,然后通过选取e中的一个基,e中的一个向量序列(un)收敛,如果n个坐标序列()收敛,那么任何有限维实向量或复向量空间E是一个巴拿赫空间。

现在我们来考虑级数的收敛性。

定义8.14.给定一个赋范向量空间(e,k k),一个级数是元素的无穷和Uk∈e,我们用sn表示第一个n+1元素的部分和,

.

定义8.15.我们说,如果序列(sn)收敛到v,也就是说,给定任何>0,存在一个正整数n,这样对于所有的

n≥n,

img

在这个例子中,我们说这个级数是收敛的。我们说,如果一系列规范是收敛的,那么这个系列绝对收敛。

如果级数收敛到v,因为对于所有m,n和m>n,我们有

如果我们让m去无穷大(n固定),我们会看到序列号,和

.

有些序列是收敛的,但不是绝对收敛的;例如,序列

img

收敛到ln2,但不收敛(这个和是无限的)。

如果e是完整的,那么相反的结果是非常有用的。

提案8.18。假设(e,k k)是一个完全赋范向量空间。如果一个级数绝对收敛,那么它就是收敛的。

8.8。矩阵指数

证据。如果绝对收敛,则证明该序列(sm)是一个柯西序列,也就是说,对于每个>0,有一些p>0,这样对于所有n≥m≥p,

img

注意

ksn−smk=kum+1+····+unk≤kum+1k+····+kunk,

由于序列收敛,它满足柯西准则。因此,序列(sm)也满足柯西准则,并且由于e是一个完整的向量空间,因此序列(sm)收敛。

注:可以看出,如果(e,k k)是一个赋范向量空间,使得每个绝对收敛级数也收敛,那么e必须是完整的(见Schwartz[146])。

绝对收敛的一个重要推论是,如果数列中的项被重新排列,那么所得的数列仍然绝对收敛并且具有相同的和。更准确地说,让σ是自然数的任意置换(双射)。这个序列称为原始序列的重新排列。可以显示以下结果(见Schwartz[146])。

提案8.19。假设(e,k k)是赋范向量空间。如果一个级数是收敛的也是绝对收敛的,那么对于n的每一个置换σ,该级数都是收敛的和绝对收敛的,其和等于原始级数的和:

.

特别地,如果(e,k k)是一个完全赋范向量空间,那么命题8.19成立。

现在我们将8.18号命题应用于矩阵指数。

8.8矩阵指数

提案8.20。对于任意n×n实矩阵或复矩阵a,序列

img

在mn(c)(或mn(r))上绝对收敛于任何算子范数。

证据。选择cn(或rn)上的任何范数,并让kk为mn(c)上的相应运算符范数。因为mn(c)的尺寸为n2,所以它是完整的。通过命题8.18,它足以证明非负实级数收敛。因为k k是一个算子范数,这是一个矩阵范数,所以我们有

.

因此,正实数的非递减序列以ekak为界,并以r的一个基本性质为界,它有一个最小上界,即它的极限。

定义8.16.设e为复赋范向量空间的有限维实。对于任意n×n矩阵a,序列的极限

img

是a的指数,表示为ea。

指数x 7→x的一个基本性质是

ex+y=exey,对于所有x,y∈c。

因此,e x总是可逆的,(ex)−1=e−x。对于矩阵,因为矩阵乘法一般不可交换,

ea+b=eaeb

失败!这个结果被挽救如下。

提案8.21。对于任意两个n×n复矩阵a和b,如果a和b上下班,即ab=ba,那么ea+b=eaeb。

8.21号提案的证明见Gallier[73]。

由于a和−a通勤,作为命题8.21的推论,我们看到ea总是可逆的,并且

(e a)−1=E−A。

也很容易看出

(ea)>=ea>。

8.8。矩阵指数

一般来说,矩阵A的指数ea没有闭式公式,但对于维2和维3的斜对称矩阵,有显式公式。每个人都应该喜欢计算指数ea

如果我们写信

然后

关键属性是

J2=−I.

提案8.22。如果a=θj,则

.

证据。我们有,所以

.

我们重新安排了条款的顺序

img

我们识别cosθ和sinθ的幂级数,因此

那就是

如要求。

因此,我们发现2×2的斜对称矩阵的指数是旋转矩阵。此属性可归纳为任何维度。第11.7节给出了n=3(罗德里格斯公式)时的显式公式。

提案8.23。如果b是n×n(实)斜对称矩阵,即b>=−b,则

q=eb是一个正交矩阵,即

Q>Q=QQ>=I。

证据。既然b>=-b,我们有

q>=(e b)>=eb>=e−b。

自从B和B通勤后,我们

q>q=e−b e b=e−b+b=e0=i。

同样地,

qq>=ebe−b=eb−b=e0=i,

这就是证据的结论。

也可以证明,det(q)=det(eb)=1,但这需要更好地理解eb的特征值(见第14.5节)。此外,对于每个n×n旋转矩阵q(正交矩阵q,使得det(q)=1),都有一个斜对称矩阵b,使得q=eb。这是一个基本性质,在机器人学中有n=3的应用。

所有熟悉的系列都有类似的矩阵。例如,如果k a k<1(其中k k是一个算符范数),那么序列绝对收敛,可以证明它的极限是(i−a)−1。

另一个有趣的系列是对数。对于任意n×n复矩阵a,如果kak<1

(其中k k是一个算子范数),然后是序列

img

绝对收敛。

8.9总结

本章的主要概念和结果如下:

• 规范和赋范向量空间。

• 三角形不等式。

8.9。总结

• 欧几里得准则;p-准则。

• H–Older的不平等;Cauchy–Schwarz的不平等;Minkowski的不平等。

• 厄米田内积和欧几里得内积。

• 等效规范。

• 有限维向量空间上的所有范数都是等价的(定理8.5)。

• 矩阵规范。

• 赫米特矩阵、对称矩阵和正规矩阵。正交矩阵和幺正矩阵。

• 矩阵的轨迹。

• 矩阵的特征值和特征向量。

• 矩阵的特征多项式。

• 矩阵A的光谱半径ρ(a)。

• 弗罗贝尼乌斯准则。

• 弗罗贝尼乌斯范数是一个统一不变的矩阵范数。

• 有界线性映射。

• 从属矩阵规范。

• k k向量范数的次矩阵范数的特征∞.k k1、k k2和

• 光谱标准。

• 对于每一个矩阵k,如果a∈mn(c),对于每一个大于0的矩阵,都有一些次矩阵。

• 矩阵的条件数。

• 线性系统的摄动分析。

• 奇异值分解(SVD)。

• 条件编号的属性。A.2(a)的最大和最小奇异值的特征

• 希尔伯特矩阵:一个非常糟糕的条件矩阵。

• 用最小二乘法求解不一致线性系统;线性规划。

• 赋范向量空间中向量序列的收敛性。

• 柯西序列,复赋范向量空间,Banach空间。

• 级数收敛。绝对收敛。

• 矩阵指数。

• 斜对称矩阵和正交矩阵。

8.10问题

问题8.1。设A为下列矩阵:

.

计算a的算符2-范数kak2。

问题8.2。证明命题8.3,即下列不等式对所有x∈rn(或x∈cn)都成立:

问题8.3。对于任意p≥1,证明对于所有x∈rn,

plim kxkp=kxk∞。

→∞7

问题8.4.设A为严格对角占优的n×n矩阵,即

对于i=1,…,n,和let

.

严格的行对角占优的事实等于条件δ>0。(1)对于任何非零矢量v,证明

kVk∞≥kVk∞δ。

用上面的例子来证明a是可逆的。

(2)证明

暗示。证明这一点

.

问题8.5。设A为任意可逆复数n×n矩阵。

(1) 对于Cn上的任何向量范数k k,证明由

kxka=所有x∈cn的kxk,

是向量范数。

(2) 证明了由k ka(也用k ka表示)引起的算子范数由下式给出:

对于每个n×n矩阵b,

其中kaba−1K使用由k k引起的算符范数。

问题8.6.给出一个关于cn和实矩阵a的范数的例子

Kakr<Kak,

其中,k−kr和k−k是与向量范数k−k相关的运算符范数。

暗示。这可以在n=2时完成。

问题8.7.c进一步证明,如果=1/(2k a−1k)let,那么对于everyk k,k是任意的算符范数。k n×n矩阵(a+hh)给出可逆的,如果−1k≤kh1k≤/c.c,那么an+×hn矩阵是可逆的。a,如果

hk≤c,然后k

问题8.8.设a为任意m×n矩阵,设λ∈r为任意正实数λ>0。

(1) 证明a>a+λin和aa>λim是可逆的。

(2) 证明这一点

A>(a a>+λim)−1=(a>a+λin)−1a>。

注:上述表达式与函数所对应的矩阵相对应。

Φ(x)=(ax−b)>(ax−b)+λx>x

达到最小值。它出现在机器学习(内核方法)中。

问题8.9.设z为q×p实矩阵。证明如果ip−z>z是正定的,那么(p+q)×(p+q)矩阵

img

是对称正定的。

问题8.10。证明对于任何实矩阵或复矩阵A,我们有

其中,上述规范为运营商规范。

暗示。使用命题8.10(除其他外,它表明

问题8.11。说明图A 7→ρ(a)(其中,ρ(a)是a的光谱半径)既不是范数,也不是矩阵范数。特别是,找到两个2×2矩阵a和b,这样

ρ(a+b)>ρ(a)+ρ(b)=0且ρ(ab)>ρ(a)ρ(b)=0。

问题8.12。定义图a 7→m(a)(在n×n实矩阵或复杂n×n矩阵上定义)的方法是

m(a)=max a i j 1≤i,j≤n。

(1) 证明这一点

m(a b)≤nm(a)m(b)

对于所有n×n矩阵a和b。

(2) 给出一个不等式的反例

m(a b)≤m(a)m(b)。

(3) 证明地图A 7→Kakm由

kakm=nm(a)=nmax a i j 1≤i,j≤n

是矩阵范数。

问题8.13。设为实对称正定矩阵。

(1) 利用Cholesky因式分解证明了存在一些上三角矩阵c,如果其对角元素严格为正,则它是唯一的,例如s=c>c。

(2) 对于任何x∈rn,定义kxk=(x>sx)1/2。

S

证明kxks=kcxk2,

地图x 7→kxks是一个标准。

问题8.14。设A为实数2×2矩阵

.

(1) 证明A的奇异值σ1≥σ2的平方是

二次方程

x2−tr(a>a)x+det(a)2=0.

(2) 如果我们让

证明条件。

(3) 考虑2×2可逆矩阵的子集,其条目aij是整数,因此0≤aij≤100。

证明在相同的a值下,函数cond2(a)和礹(a)在集合s上达到最大值。

检查矩阵的那个

我们有

和cond2(am)≈39206。

(4) 证明对于所有a∈s,如果det(a)≥2,则(a)≤10000。得出结论,对于矩阵,s上的最大μ(a),使得Det(a)=1。证明求S上最大μ的矩阵等于求一些整数n1、n2、n3、n4,这样

0≤n4≤n3≤n2≤n1≤100

N21+N22+N23+N24≥1002+992+992+982=39206 N1N4−N2N3=1.

您可以在没有证据的情况下使用,事实上,对上述约束的唯一解决方案是多集

100,99,99,98

(5) 从第(4)部分中推断,μ具有最大值的s中的矩阵为

img

检查这些矩阵的μ值是否相同。得出结论

最大条件2(A)=条件2(AM)。

阿斯

(6) 解决系统问题

.

干扰右侧B

并求解新系统,其中y=(y1,y2)。检查那个

.

计算k xk2、k∆xk2、kkk2、k∆bk2,并估算

.

检查c≈cond2(am)=39206。

问题8.15。考虑一个实数2×2矩阵,其形式为零。

(1) 证明这一点

.

如果a2+bc=0,证明ea=i2+a。

(2) 如果a2+bc<0,设ω>0,使ω2=−(a2+bc)。证明这一点

img

(3) 如果a2+bc>0,让ω>0等于ω2=a2+bc。证明这一点

img

(3) 证明在所有情况下

=1和Tr(a)≥−2。

(4) 证明了存在一些实2×2矩阵b,且det(b)=1,因此没有实2×2矩阵a的零迹,因此ea=b。

问题8.16。还记得希尔伯特矩阵是由

(1) 证明这一点

整数的倒数。

暗示。使用问题??

(2) 令人惊讶的是,h(n)的倒数项是整数。证明(h(n))-1=(αij),与

.