第三十九章

实值函数的极值

39.1局部极值、约束局部极值和拉格朗日乘数

设j:e→r为赋范向量空间e j上定义的实值函数(或更大范围的拓扑空间)。理想情况下,我们希望找到函数的位置

最小值或最大值,至少在本地。在本章中,我们通常使用符号表示j在u处的导数,而不是dj(u)。我们的陈述与Ciarlet[41]的陈述非常接近(第7章),我们发现这是最清楚的一个。

定义39.1.e,我们说j有a if j:局部最小值e→r是在赋范向量空间(或相对最小值)上定义的实值函数,如果存在

一些包含u的开子集w e,这样

j(u)≤j(w),对于所有w∈w。

同样地,如果有一个包含u的开子集w e,我们认为j在点u∈e处有一个局部最大值(或相对最大值),这样

j(u)≥j(w),对于所有w∈w。

在这两种情况下,我们都说j在u有一个局部极值(或相对极值)。

jsome open subsethas a strict local minimumw e containing(resp.在点u∈e处,如果存在

j(u)<j(w)for all w∈w−u

(RESP)

j(u)>j(w)表示所有w∈w−u)。

一千三百五十一

通过滥用语言,我们经常说u点本身是“局部最小值”或“局部最大值”,尽管严格来说,这是没有意义的。

我们从一个众所周知的局部极值的必要条件开始。

提案39.1.设e为赋范向量空间,设j:Ω→r为函数,其中Ω为e的一些开子集。如果函数j在某个点上有局部极值u∈Ω,且

如果j在u处是可微的,那么dju=j0(u)=0。

证据。选取任意v∈e,因为Ω是开的,对于t足够小的话,我们有u+tv∈Ω,所以有一个开的区间i r,这样函数_

⑨(t)=j(u+tv)

对于所有的t∈i都是定义明确的。通过应用链式法则,我们发现,当t=0时,a是可微的,我们得到_(0)=dju(v)。

在不失去一般性的情况下,假设u是局部最小值。然后我们有了

img

这表明_(0)=dju(v)=0。由于v∈e是任意的,我们得出dju=0。

点u∈Ω,使j0(u)=0称为j的临界点。

如果e=rn,那么条件dju=0等于系统

.

命题39.1的条件只是极值存在的必要条件,但不是充分条件。下面是一些反例。如果f:r→r是f(x)=x3给出的函数,因为f0(x)=3x2,我们得到f0(0)=0,但0既不是f的最小值,也不是f的最大值。如果g:r2→r是g(x,y)=x2−y2给出的函数,则=(0 0 0),但接近(0,0),则函数g取负值和正值。

在许多实际情况下,我们需要寻找函数j在附加约束下的局部极值。这种情况可以很方便地形式化为:我们在赋范向量空间的一些开子集Ω上定义了一个函数j:Ω→ru,但是我们也定义了Ω,我们正在寻找j关于

有一些子集集U。

在寻找某些目标函数的局部极值时,元素u∈u通常被称为关于某个子集的优化问题con-j的可行解。

由一组约束定义的。请注意,在大多数情况下,u不是打开的。实际上,u通常是闭合的。

定义39.2.如果j:Ω→r是赋范向量空间e的某个开子集Ω上定义的实值函数,如果u是Ω的某个子集,则我们认为j在点u∈u处具有局部最小值(或相对最小值),如果存在包含u的某个开子集wΩ,那么

j(u)≤j(w)表示所有w∈u w。

同样地,如果存在一些包含u的开子集wΩ,我们认为j在点u∈u处有一个局部最大值(或相对最大值),这样

j(u)≥j(w),对于所有w∈u w。

在这两种情况下,我们都说j在u处对u有一个局部极值。

注意到Ω为开的假设对39.1命题的有效性至关重要。例如,如果j是r上的恒等函数,u=[0,1]是一个封闭的子集,那么j0(x)=1表示所有x∈[0,1],即使j在x=0处有一个最小值,在x=1处有一个最大值。

因此,为了找到函数j:Ω→r对于Ω的子集u具有局部极值的必要条件(其中Ω是开的),我们需要以某种方式将u的定义纳入这些条件中。这可以在两种情况下完成:

(1) 集合U由一组方程定义,

U =x∈Ω_i(x)=0,1≤i≤m,

式中,函数i:Ω→r是连续的(通常是可微的)。

(2) 集合U由一组不等式定义,

U =x∈Ω_i(x)≤0,1≤i≤m,

式中,函数i:Ω→r是连续的(通常是可微的)。

在(1)式中,式i(x)=0称为等式约束,在(2)式中,不等式i(x)≤0称为不等式约束。

式i(x)≥0的不等式约束等同于不等式约束−x(x)≤0。一个等同性约束_i(x)=0相当于两个不等式约束_i(x)≤0和−_i(x)≤0的结合,因此不等式约束的情况包含了等同性约束的情况。然而,平等约束的情况更容易处理,在本章中,我们将限制我们对这一情况的关注。

如果函数i为凸函数,而Ω为凸函数,则u为凸函数。这是我们稍后将讨论的一个非常重要的案例。特别是,如果函数_i是仿射的,那么对于一些m×n矩阵a和一些向量b∈rm,等式约束可以写成ax=b,不等式约束可以写成ax≤b。稍后我们还将讨论仿射约束的情况。

在等式约束的情况下,可以用拉格朗日乘子给出关于u的局部极值的必要条件。在不等式约束的情况下,对于广义拉格朗日乘子和卡鲁什-库恩-塔克条件,也存在一个关于u的局部极值的必要条件。这将在第49章中讨论。

我们首先考虑这样一种情况,即Ωe1×e2是赋范向量空间乘积的开子集,其中u是某个连续函数的零点轨迹,即

u=(u1,u2)∈Ω(u1,u2)=0。

为了简洁起见,我们说j在u处有一个约束的局部极值,而不是说j在u∈u处有一个局部极值,幸运的是,对于拉格朗日乘子,约束的局部极值有一个必要的条件。

定理39.2。(约束极值的必要条件)设Ωe1×e2为赋范向量空间乘积的开子集,其中e1 a Banach空间(e1是完整的),设:Ω→e2为c1函数(这意味着d(ω)存在且对所有ω∈Ω都是连续的),并设

u=(u1,u2)∈Ω(u1,u2)=0。

另外,让u=(u1,u2)∈u是这样一个点

而且,

设j:Ω→r是一个在u上可微的函数,如果j在u上有一个约束的局部极值,那么有一个连续的线性形式∧(u)∈l(e2;r),这样

dj(u)+∧(u)d(u)=0.

证据。攻击计划是使用隐函数定理;定理38.14。注意,定理38.14的假设确实得到了满足。因此,存在一些开放子集u1 e1,u2 e2,以及一个连续函数g:u1→u2,其中(u1,u2)u1×u2 oz,且使得ω(v1,g(v1))=0

对于所有v1∈u1。此外,g在u1∈u1上是可微的,并且

.

由此可知,j对(u1×u2)u的限制产生了一个单变量的函数g,其中

g(v1)=j(v1,g(v1))。

对于所有v1∈u1。现在,函数g在u1上是可微的,它在u1上有一个局部极值,所以命题39.1意味着

dg(u1)=0。

根据链式法则,

.

根据dg(u1)=0,我们推断

既然我们也有

如果我们让

然后我们得到

img

如权利要求所述,其产生dj(u)+∧(u)d(u)=0。

在大多数应用中,对于一些整数m,n,我们有e1=rn−m和e2=rm,因此1≤m<n,Ω是rn,j:Ω→r的开放子集,并且我们有m个定义子集的函数i:Ω→r

u=v∈Ω_i(v)=0,1≤i≤m。

定理39.2给出了以下必要条件:

定理39.3。(拉格朗日乘子的约束极值的必要条件)设Ω为Rn的开子集,考虑m c1函数_i:Ω→r(与

1≤m<n),让

u=v∈Ω_i(v)=0,1≤i≤m,

设u∈u为一点,使得导数d_i(u)∈l(r n;r)是线性无关的;等价地,假设m×n矩阵具有秩m,如果j:Ω→r是在u∈u处可微的函数,如果j在u处具有局部约束极值,则存在m个数λ。i(u)∈r,唯一定义,这样

dj(u)+λ1(u)d_1(u)+····+λm(u)d_m(u)=0;

相当地,

j(u)+λ1(u)1(u)+····+λ1(u)m(u)=0.

证据。m线性形式d i(u)的线性独立性等于m×n矩阵具有秩m的事实。通过重新排序列,我们可以假设第一个m列是线性独立的。如果我们让:Ω→Rm是由(v)=(_1(v),…,_m(v)定义的函数)

对于所有v∈Ω,则我们看到/x2(u)是可逆的,且/x2(u)及其逆式都是连续的,因此定理39.2适用,并且存在一些(连续)线性形式∧(u)l(rm;r),因此dj(u)+∧(u)d(u)=0。

然而,∧(u)是由一些m-元组(λ1(u),…,λm(u))定义的∈Rm,并且考虑到τ的定义,上述方程等价于

dj(u)+λ1(u)d_(u)+····+λm(u)d m(u)=0.

λi(u)的唯一性是d i(u)的线性独立性的结果。

定理39.3中涉及的数λi(u)被称为与约束极值u相关的拉格朗日乘数(同样,还有一些轻微的语言滥用)。线性形式d_i(u)的线性独立性等于雅可比矩阵具有秩m的事实。如果m=1,则d_i(u)的线性独立性减小到条件_1(u)=0.6。

重新表述拉格朗日乘子的一个有效方法是引入拉格朗日的概念,它与我们的约束极值问题有关。这就是功能

L:Ω×Rm→R由给出

L(V,λ)=J(V)+λ1_1(V)+····+λm_m(V),

用λ=(λ1,…,λm)。然后,观察存在一些μ=(μ1,…,μm)和一些u∈u,这样

dj(u)+_1(u)+···+_m(u)=0

如果且仅当

dl(u,μ)=0,

或同等

L(U,μ)=0;

也就是说,iff(u,λ)是拉格朗日L的一个临界点。

实际上,dl(u,μ)=0,如果等于

从那以后

img

我们得到dj(u)+_1(u)+···+_m(u)=0

_1(u)=·····=_m(u)=0,

也就是说,u∈u。

如果我们明确地写出条件

dj(u)+_1(u)+···+_m(u)=0,

我们得到了N×M系统

重要的是要注意,这个系统的矩阵是在u处的_雅可比矩阵的转置。如果我们写jac(对于j的雅可比矩阵(at

u),则上述系统以矩阵形式写为

j(u)+(jac(j)(u))>λ=0,

其中,λ被视为列向量,拉格朗日等于

L(u,λ)=j(u)+(_(u),…,m(u))λ。

注:如果雅可比矩阵jac(所有v∈u都有秩m

(相当于线性形式d_i(v)的线性独立性),那么我们说

0∈Rm是一个正则值。在这种情况下,我们知道

U=V∈Ω_(V)=0

是RN尺寸n−m的光滑子流形。此外,这套

img

是V处U的切线空间(尺寸为N-m的向量空间)。然后,条件

dj(v)+_1(v)+····+_m(v)=0

意味着dj(v)在切线空间tvu上消失。相反,如果所有w∈tvu的dj(v)(w)=0,这意味着dj(v)与tvu是正交的(定义10.3(vol.i))。由于(根据定理10.1(b)(vol.i))tvu的正交是d_(v),…,d m(v)所跨越的线性形式的空间,因此dj(v)必须是d i(v)的线性组合。因此,当0是一个正则值时,定理39.3断言,如果u∈u是j的局部极值,则dj(u)必须在切线空间tuu上消失。我们可以说得更多。Ω的z(j)子集由下式给出

Z(J)=V∈ΩJ(V)=J(U)

(j(u)级的水平集)是Ω中的超曲面,如果dj(u)=06,dj(u)的零轨迹是u(n-1维的向量空间)上的切线空间tuz(j)到z(j),其中

tuz(j)=w∈rn dj(u)(w)=0。

因此,定理39.3断言

tuu tuz(j);

这是一个几何条件。

拉格朗日的美在于,约束_i(v)=0已被纳入函数l(v,λ)中,并且约束j局部极值存在的必要条件被简化为非约束j局部极值存在的必要条件。D·L

但是,应仔细检查是否满足定理39.3的假设(尤其是线性形式d i的线性独立性)。例如,让

j:r3→r由下式给出

J(x,y,z)=x+y+z2

且g:r3→r×g(x,y,z)=x2+y2。

由于g(x,y,z)=0 iff x=y=0,我们得到u=(0,0,z)z∈r和j对

u由给出

j(0,0,z)=z2,

其最小值为z=0。然而,对拉格朗日乘子的“盲”使用要求存在一些λ,以便

从那以后

首先,偏导数在x=y=0时消失,所以在局部极值时,我们也应该

但这是荒谬的,因为

img

读者应该喜欢找出论点中缺陷的原因。

我们还应该记住,定理39.3只给出了一个必要的条件。(u,λ)可能不符合局部极值!因此,总是有必要分析J在临界点U附近的局部行为。这通常是困难的,但在J是仿射或二次的情况下,约束是仿射或二次的情况下,这是可能的(尽管并非总是容易的)。

让我们将上述方法应用于以下示例,其中e1=r,e2=r,

Ω=r2,和

J(x1,x2)=-x2(x1,x2)=x21+x22−1.注意

img

是单位圆,从

很明显,单位圆上每个点的(x1,x2)=06=(x1,x2)。如果我们形成拉格朗日

-至-

定理39.3指出,j有一个约束局部极值的必要条件是l(x1,x2,λ)=0,因此下列方程必须成立:

2λx1=0

−1+2λx2=0

X21+X22=1.

第二个方程意味着λ=06,然后第一个方程得出x1=0,所以第三个方程得出x2=±1,我们得到两个解:

(x1,x2)=(0,1)

,(X01,X02)=(0,−1)。

我们可以立即检查第一个解决方案是最小的,第二个是最大的。读者应该寻找这个问题的几何解释。

现在让我们考虑一个情况,其中j是形式的二次函数

img

其中a是n×n对称矩阵,b∈rn,约束由形式的线性系统给出。

cv=d,

39.2。利用二阶导数求极值

其中c是m×n矩阵,m<n,d∈rm。我们还假设c的等级为m。

在这种情况下,函数_由下式给出:

⑨(v)=(cv−d)>,

因为我们将(v)视为行向量(v视为列向量),并且

d_(v)(w)=c>w,

满足了在u处_的雅可比矩阵具有秩m的条件。这个问题的拉格朗日方程是

其中,λ被视为列向量。现在,因为a是对称矩阵,所以很容易证明

.

因此,求逆局部极值的必要条件是

av+c>λ=b

cv=d,

可以用矩阵形式表示为

其中系统的矩阵是对称矩阵。我们不应该惊讶地发现第41节的系统,除了对涉及的矩阵和向量进行了一些重命名。从41.2节我们知道,函数j有一个最小的iff a是正定的,所以一般来说,如果a只是一个对称矩阵,拉格朗日的临界点不对应j的极值。

我们现在研究了涉及j的二阶导数的极值存在的条件。

39.2使用二阶导数求极值

为了简洁起见,我们只考虑局部极小的情况;对于局部极大值,得到了类似的结果(用−j替换j,因为maxu j(u)=−minu−j(u))。我们从一个非约束局部极小值的必要条件开始。

提案39.4.设e为赋范向量空间,设j:Ω→r为一个函数,用Ω表示e的一个开子集。如果函数j在Ω中可微,如果j在某一点上有一个二阶导数d2j(u)∈Ω,如果j在u处有一个局部最小值,那么d2j(u)(w,w)≥0表示所有w∈e。

证据。选取任意一个非零向量w∈e,由于Ω是开的,对于t足够小,u+tw∈Ω和j(u+tw)≥j(u),所以有一些开区间i r,这样

u+tw∈Ω和j(u+tw)≥j(u)

对于所有的t∈i,利用泰勒-杨公式和我们必须有dj(u)=0的事实,因为j在u处有一个局部最小值,我们得到

当lim=0时,这意味着

d2j(u)(w,w)≥0.

因为这个论点适用于所有的w∈e(如果w=0,则很简单),所以证明了这个命题。

应该注意的是,与前面的命题没有矛盾。例如,函数f:x 7→x3在0处没有局部最小值,而df(0)=0和d2f(0)(u,v)=0。同样,读者应检查函数f:r2→r是否由

F(x,y)=x2−3y3

在(0,0)时没有局部最小值;然而df(0,0)=0和d2f(0,0)(u,v)=2u2≥0。

当e=rn时,命题39.4表示具有局部最小值的必要条件是Hessian 2j(u)是正半定的(它总是对称的)。

我们现在给出了局部极小值存在的充分条件。

定理39.5。设e为赋范向量空间,设j:Ω→r为e的某个开子集为Ω的函数,并假定j在Ω中可微,dj(u)=0在某点u∈Ω。以下属性保留:

(1) 如果d2j(u)存在并且有一些数α∈r,那么α>0和

d2j(u)(w,w)≥αkwk2,对于所有w∈e,

那么j在u有一个严格的局部最小值。

(2) 如果d2j(v)存在于所有v∈Ω,并且如果有一个以u为中心的球bΩ,那么

d2j(v)(w,w)≥0,对于所有v∈b和所有w∈e,

那么j的局部最小值为u。

39.2。利用二阶导数求极值

证据。(1)使用泰勒-杨公式,对于每个足够小的向量w,我们可以写

img

当lim=0时。因此,如果我们选取r>0足够小,对于kwkj(u)对于所有u+w∈b,其中b是中心u和半径r的开球,这证明j在u处有一个局部严格最小值。

(2)泰勒-麦克劳林公式表明,对于所有u+w∈b,我们有

对于一些v∈(u,w+w)。

定理39.5的两个断言没有相反的结果。然而,在d2j(u)上有一个条件暗示了第(1)部分的条件。由于当e=rn时这种情况更容易说明,我们从这个例子开始。

回想一下,如果x>ax>0,所有x∈rn−0,n×n对称矩阵a是正定的。特别是,a必须是可逆的。

提案39.6.对于任何对称矩阵a,如果a是正定的,那么有一些α>0,这样

x>ax≥αkxk2,所有x∈rn。

证据。选择RN中的任何规范(记住RN上的所有规范都是等效的)。由于单位球面sn−1=x∈rn kxk=1是紧凑的,并且由于函数f(x)=x>ax在sn−1上从不为零,因此函数f在sn−1上具有最小α>0。使用x=kxk(x/kxk)的惯用技巧,对于每一个非零向量x∈rn,以及对于x=0,命题的不等式是平凡的事实,从

x>ax≥α,对于所有x,kxk=1,

我们得到

x>ax≥αkxk2,对于所有x∈rn,

如要求。

我们可以把定理39.5和命题39.6结合起来,得到严格局部极小存在的一个有用的充分条件。首先让我们介绍一些术语。

定义39.3.如前所述,给定函数j:Ω→r,如果dj(u)=0,并且hessian矩阵2j(u)是可逆的,那么点u∈Ω是非退化临界点。

提案39.7。设j:Ω→r为某个开放子集中定义的函数。如果j在Ω中是可微的,并且如果某点u∈Ω是非退化临界点,使得2j(u)是正定的,那么j在u处有一个严格的局部极小值。

注:通过对非退化临界点概念的适当推广,可以将39.7命题推广到无限维空间。首先,我们假设e是一个Banach空间(一个完全赋范向量空间)。然后,我们将e的对偶e0定义为e上的一组连续线性形式,因此e0=l(e;r)。遵循lang,我们对连续线性形式的空间使用符号e0,以避免与从e到r的所有线性映射的空间e=hom(e,r)混淆。连续双线性映射在l2(e,e;r)中得到由e到e0的映射

Φ(u)=u,

式中,ωu∈e0为线性形式,定义如下:

u(v)=a(u,v)。

可以很容易地检查,u是连续的,地图Φ是连续的。那么,我们认为,当Φ:e→e0是Banach空间的同构时,它是非退化的,这意味着Φ是可逆的,并且Φ和Φ-1都是连续线性映射。给定一个在Ω上可微的函数j:Ω→r(其中,Ω是e的开子集),如果d2j(u)存在于某个u∈Ω,那么当dj(u)=0并且d2j(u)是非退化临界点时,我们说u是非退化临界点。当然,d2j(u)是正定的,如果d2j(u)(w,w)>0表示所有w∈e−0。

利用上述定义,命题39.6可以推广到非退化正定双线性形式(在Banach空间上),定理39.7也可以推广到J:Ω→R在Banach空间的开子集上定义的情形。有关详细信息和证据,请参阅《卡丹》[34](第一部分第8章)和《阿维斯》[9](第8章和第10章)。

在下一节中,我们将利用凸性;既在域Ω上,也在函数上。

J本身。

39.3利用凸性求极值

我们首先回顾凸集和凸函数的定义。

定义39.4.在任意实向量空间e下,如果c=∅或对于每对点u,v∈c,连接u和v的线段包含在c中,则e的子集c是凸的,即:

(1−λ)u+λv∈c表示所有的λ∈r,使0≤λ≤1。

给定任意两点的u v∈e,直线段[u,v]是集合

[u,v]=(1−λ)u+λv∈eλ∈r,0≤λ≤1。

显然,非空集c是凸的iff[u,v]c,当u,v∈c时。凸集的例子见图39.1。

(a)

(b)

图39.1:图(a)显示了一个球体在r3中不是凸的,因为绿色虚线不在其表面。图(b)显示实心球在r3中是凸的。

定义39.5.如果c是e的非空凸子集,则函数f:c→r是凸的。

(在c上)如果对于每对点u,v∈c,f((1-λ)u+λv)≤(1-λ)f(u)+λf(v),对于所有λ∈r,使0≤λ≤1;

函数f是严格凸的(在c上),如果对于每对不同的点u,v∈c(u=6v),f((1-λ)u+λv)<(1-λ)f(u)+λf(v)对于所有的λ∈r,使0<λ<1;

见图39.2。函数f:a→r的上图epi(f)定义在

Rn是Rn+1的子集,定义为

epi(f)=(x,y)∈rn+1 f(x)≤y,x∈a。

在凸子集C上定义的函数f:c→r是凹的(分别为如果(−f)为凸形(分别为严格凸形)。

显然,函数f如果凸iff其上图epi(f)是rn+1的凸子集。

img

(a)

img

(b)

图39.2:图(a)和(b)是实值函数的图。图(a)是凸函数图,因为蓝线位于F图的上方。图(b)显示了非凸函数图。

向量空间e的子空间v e是凸的;仿射子空间,即形式为u+v的集合,其中v是e的子空间,u∈e是凸的。球(开的或闭的)是凸的。给定任意线性形式,对于任意标量c∈r,闭半空间

是凸面的。任何半空间的交集都是凸的。一般来说,凸集的任何交集都是凸的。

线性形式是凸函数(但不是严格凸函数)。任何范数k:e→r+都是凸函数。max函数,

最大值(x1,…,xn)=max x1,…,xn

在RN上是凸形的。对于任何c=0(6c∈r),指数x 7→ecx都是严格凸的。对数函数在r+−0上是凹的,对数行列式函数logdet在对称正定矩阵集上是凹的。该函数在凸优化中起着重要作用。Boyd[29]对凸性及其在优化中的应用作了很好的阐述。

这是一个关于凸子集u的函数具有局部最小值的必要条件。

定理39.8。(凸子集上局部最小值的必要条件)设j:Ω→r为赋范向量空间e的某些开子集Ω上定义的函数,设uΩ为非空凸子集。给定任何u∈u,如果dj(u)存在,并且j在u中对u有局部极小值,那么

dj(u)(v−u)≥0,所有v∈u。

证据。设v=u+w为u中的任意点,因为u是凸的,所以所有t都有u+tw∈u,所以0≤t≤1。因为dj(u)存在,我们可以写

img

当lim=0时。但是,因为0≤t≤1,

img

由于u是u的局部最小值,我们得到j(u+tw)−j(u)≥0,所以我们得到

.

上面暗示dj(u)(w)≥0,因为否则我们可以选择t>0足够小,以便

矛盾。由于该论点适用于所有v=u+w∈u,因此证明了该定理。

观察到u的凸性是拉格朗日乘子的一个代替品,但是我们现在必须处理一个不等式而不是一个等式。

考虑u是e的子空间的特殊情况,在这种情况下,由于u∈u,我们有2u∈u,对于任何u+w∈u,我们必须有2u−(u+w)=u−w∈u。前面的定理暗示dj(u)(w)≥0和dj(u)(−w)≥0,即dj(u)(w)≤0,所以dj(u)=0。由于讨论的是w∈u(因为u是一个子空间,如果u,w∈u,那么u+w∈u),我们得出如下结论:

dj(u)(w)=0表示所有w∈u。

我们现在将描述凸函数的一阶导数或二阶导数。

提案39.9.(凸性和一阶导数)设f:Ω→r是赋范向量空间e的某些开子集Ω上可微的函数,设uΩ是非空凸子集。

(1) 函数f在u iff上是凸的。

f(v)≥f(u)+df(u)(v−u)表示所有u,v∈u。

img

图39.3:凸值函数f的图示。因为f是凸的,所以它总是位于其切线之上。

(2) 函数f在u iff上是严格凸的。

f(v)>f(u)+df(u)(v−u)表示所有u,v∈u,u=6v。

见图39.3。

证据。设u,v∈u为任意两个不同点,选取λ∈r,取0<λ<1。如果函数f是凸的,那么

会产生

接下来是

.

如果f是严格凸的,则上述推理不起作用,因为严格不等式不必通过“传递到极限”来保持。我们采用以下技巧:对于任何ω,如果0<ω<1,则观察

.

如果我们假设0<λ≤ω,则f的凸性产生

.

如果我们减去两边的f(u),我们得到

.

现在,由于0<ω<1和f是严格凸的,

f(u+ω(v−u))=f((1−ω)u+ωv)<(1−ω)f(u)+ωf(v),

这意味着

因此我们得到

.

如果我们把λ设为0,通过传递到极限,我们得到

这就产生了期望的严格不等式。

现在让我们来考虑(1)的逆命题;也就是说,假设

f(v)≥f(u)+df(u)(v−u)表示所有u,v∈u。

对于任意两个不同的点u,v∈u,对于任何一个λ0<λ<1,我们得到

f(v)≥f(v+λ(v−u))−λdf(v+λ(u−v))(u−v)

f(u)≥f(v+λ(u−v))+(1−λ)df(v+λ(u−v))(u−v)、

如果我们将第一个不等式乘以1−λ,第二个不等式乘以λ,它们加起来就得到了不等式。

(1−λ)f(v)+λf(u)≥f(v+λ(u−v))=f((1−λ)v+λu),

证明f是凸的。

(2)倒数的证明是相似的,只是不平等被严格的不平等所代替。

我们现在用F的二阶导数建立一个凸性准则,这个准则比前一个准则更容易检验。

提案39.10。(凸性和二阶导数)设f:Ω→r是赋范向量空间e的某些开子集Ω上的两次可微函数,设uΩ为非空凸子集。

(1) 函数f在u iff上是凸的。

d2f(u)(v−u,v−u)≥0表示所有u,v∈u。

(2) 如果

d2f(u)(v−u,v−u)>0表示所有u,v∈u,u=6v,

那么f是严格凸的。

证据。首先,假设满足条件(1)中的不等式。对于任意两个不同的点u,v∈u,泰勒-麦克劳林公式得出

对于一些w=(1−λ)u+λv=u+λ(v−u),0<λ<1,且λ)>0,因此v−u=ρ(v−w)。由于d2f(u)(v−w,v−w)≥0对于所有u,w,我们通过应用命题39.9(1)得出结论。

同样,如果(2)成立,上述推理和命题39.9(2)意味着f是严格凸的。

为了证明(1)中的必要条件,定义G:Ω→R

g(v)=f(v)−df(u)(v)

其中u∈u是被认为是固定的点。如果f是凸的,因为

G(V)−G(U)=F(V)−F(U)−DF(U)(V−U),

命题39.9意味着f(v)u)≥0,这意味着g在u处对所有值具有局部最小值。因此,我们得到dg(u)=0。观察到g在Ω和d2g(u)=d2f(u)中是两倍可微的,所以泰勒-杨公式对于每个v=u+w∈u和所有t,0≤t≤1,

如果lim=0,并且t足够小,我们必须有d2f(u)(w,w)≥0,如权利要求所述。

img

命题39.10(2)的逆命题是错误的,正如我们通过考虑f(x)=x4给出的函数f所看到的那样。

例39.1。另一方面,如果f是形式的二次函数

img

其中a是对称矩阵,我们知道

df(u)(v)=v>(au-b),

所以

img

因此,命题39.9意味着,如果a是正半定的,那么f是凸的,如果a是正定的,那么f是严格凸的。反过来,则是39.10号提案。

我们通过将前面的定理应用于凸子集上定义的凸函数来结束这一节。在这种情况下,局部最小值局部最大值)是全局最小值(分别为全球最大值)。

定义39.6.设f:e→r为在某个赋范向量空间上定义的任何函数(更一般地说,是任何集合)。对于任何u∈e,我们说f在u(resp)中有一个最小值。如果f(u)≤f(v)(resp.f(u)≥f(v))表示所有v∈e。

我们说f在u(resp)中有严格的最小值。严格的最大值,单位为u)如果

f(u)f(v))表示所有v∈e−u。

如果u e是e和u∈u的子集,我们就说f在u(resp)中有一个最小值。关于u的严格最小值,如果f(u)≤f(v),对于所有v∈u(resp.f(u)<f(v)表示所有v∈u−u),

同样地,最大值单位为u(resp.u)中的严格最大值),关于u,其中≤变为≥和<变为>。

有时,我们说全局最大值(或最小值)来强调最大值(或最小值)不仅仅是局部最大值(或最小值)。

定理39.11。给定任意赋范向量空间e,设u为e的任意非空凸子集。

(1) 对于任意凸函数j:u→r,对于任意u∈u,如果j在u中有局部极小值,则j在u中有(全局)极小值。

(2) 任何严格凸函数j:u→r最多有一个极小值(单位为u),如果有,则它是一个严格极小值(单位为u)。

(3) 设j:Ω→r为e的某个开子集Ω上定义的任何函数,其中uΩ,并假定j在u上是凸的。对于任何点u∈u,如果dj(u)存在,则j在u上对u iff具有最小值。

dj(u)(v−u)≥0,所有v∈u。

(4) 如果(3)中的凸子集u是开的,则上述条件等于

dj(u)=0。

证据。(1)假设v=u+w是u中的任意点,因为j是凸的,所有t

0≤t≤1,我们有

j(u+tw)=j(u+t(v−u))≤(1−t)j(u)+tj(v),

会产生

j(u+tw)−j(u)≤t(j(v)−j(u))。

因为j在u中有一个局部最小值,所以有一些t0和0<t0<1,这样

0≤j(u+t0w)−j(u),

这意味着j(v)−j(u)≥0。

(2) 如果j是严格凸的,则上述w=06的推理表明存在一些t0,其中0<t0<1,因此

0≤j(u+t0w)−j(u)<t0(j(v)−j(u)),

这表明u是一个严格的全局最小值(u),因此它是唯一的。

(3) 从定理39.8我们已经知道,所有v∈u的条件dj(u)(v-u)≥0是必要的(即使j不是凸的)。相反地,由于j是凸的,仔细检查39.9号提案第(1)部分的证明表明,只有dj(u)存在这个事实才能证明

j(v)−j(u)≥dj(u)(v−u),对于所有v∈u,

如果

dj(u)(v−u)≥0,对于所有v∈u,

然后

j(v)−j(u)≥0,对于所有v∈u,

如要求。

(4) 如果u是开的,那么对于每一个u∈u,我们可以找到一个以u为圆心的开球b,其半径足够小,使b u。那么,对于任何w=06这样的情况,我们都有v=u+w∈b和v0=u−w∈b,因此条件(3)意味着

dj(u)(w)≥0和dj(u)(−w)≥0,

得出dj(u)(w)=0。

由于上述公式适用于所有w=06,因此dj(u)是线性的,我们将其留给读者来填写dj(u)=0的证明细节。

定理39.11可用于重新推导线性系统的最小二乘解ax=b(其中a是m×n矩阵)由正态方程a>ax=a>b给出的事实。

为此,我们考虑二次函数

我们的最小二乘问题等价于求Rn上j的极小值。计算表明,因此

-

由于a>a是正半定的,函数j是凸的,定理39.11(4)表明j的极小值是方程的解。

a>au−a>b=0。

本章的考虑揭示了求导数图零点的方法的必要性

DJ:Ω→E0,

式中,Ω是赋范向量空间e的一些开子集,e0是e上所有连续线性形式的空间(e的子空间)。牛顿方法的推广产生了这样的方法,它们是下一章的目标。

39.4总结

本章的主要概念和结果如下:

• 最大局部最小值、局部最大值、局部极值、严格局部最小值、严格局部

• 包含导数的局部极值的必要条件;临界点。

• 关于子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子极小子

• 约束局部极值。

• 约束极值的必要条件。

• 拉格朗日乘子约束极值的必要条件。

• 拉格朗日

• 拉格朗日的临界点。

• 包含二阶导数的无约束局部极小的必要条件。•包含二阶导数的局部最小值的充分条件。

• 涉及非退化临界点的充分条件。

• 凹函数凸集,凸函数,,凹函数,严格凸函数,严格

• 包含导数的凸集上局部极小的必要条件。

• 关于一阶导数的条件的函数的凸性。

• 关于二阶导数条件的函数的凸性。

• 凸集上凸函数的极小值。