1 线性基函数模型

1.1 回归问题定义

在给定D维输⼊变量线性回归模型 - 图1的情况下,预测连续型⽬标变量t的值,如之前提到过的多项式曲线拟合问题
(这里我们直接对预测分布线性回归模型 - 图2进行建模,而不再求解联合分布线性回归模型 - 图3了)

1.2 线性基函数模型

1.2.1 线性基函数模型

线性模型:指模型是参数的线性函数(模型参数对输入变量线性组合后输出);
最简单的形式直接是原始输⼊变量的线性函数
线性回归模型 - 图4
简单的线性关系在形式和求解方面很便捷,但也带来了函数空间上的局限性。

基函数:一般指对原始输入变量线性回归模型 - 图5进行非线性变换时使用的函数;常见的非线性基函数有

  • 高斯基函数

线性回归模型 - 图6
这里并不需要概率归一化系数,其中线性回归模型 - 图7是控制基函数“空间大小”的统一参数。

  • sigmoid基函数

线性回归模型 - 图8
这里也能扩展为的tanh基函数。

  • 傅里叶基函数 …

我们通过加入基函数,将⼀组输⼊变量进行⾮线性变换后再进⾏线性组合,我们将模型的函数表示范畴从线性空间扩展到了非线性空间。

线性基函数模型
线性模型 + 非线性基函数 = 线性基函数模型
线性回归模型 - 图9
这里的线性回归模型 - 图10线性回归模型 - 图11是模型偏置参数,模型参数总量为M。基函数线性回归模型 - 图12通常是我们自定义的非线性特征处理函数,用于将原始的模型输入进行特征抽取或者预变换。这种情况下,模型线性回归模型 - 图13是原始输入线性回归模型 - 图14的非线性函数。(仍然是关于模型参数的线性模型,基函数本身不包含未知的模型参数)
虽然线性模型对于模式识别的实际应⽤来说有很⼤的局限性,特别是对于涉及到⾼维输⼊空间的问题来说更是如此,但是他们的模型参数简单,并且有很好的分析性、可解释性,实际计算在各个维度上是可独立进行的。

接下来我们探讨用基函数线性回归模型 - 图15的线性组合去拟合目标值线性回归模型 - 图16

1.3 最大似然与最小平方

本部分介绍在条件高斯噪声下,完成如下的问题转化:

  1. 最大化似然函数 👉 最小化平方和误差函数
  2. 最小平方问题 👉 最小二乘解问题(小量数据下)
  3. 最小平方问题 👉 最优化问题(大量数据下)

1.3.1 最大似然与最小平方的等价情形

假设目标变量线性回归模型 - 图17由确定的线性函数线性回归模型 - 图18和高斯变量线性回归模型 - 图19给出,线性回归模型 - 图20为精度(方差倒数)。这里的随机变量线性回归模型 - 图21不妨理解为随机测量误差等“外部噪声”
线性回归模型 - 图22
假设我们从以上分布中独立随机抽取到了一个大小为N的数据集线性回归模型 - 图23,对应得到一系列观测值线性回归模型 - 图24,此时似然函数如下
线性回归模型 - 图25
取其对数形式得到
线性回归模型 - 图26
这里的线性回归模型 - 图27正是平方和误差函数。
写出了似然函数,我们可以使⽤最⼤似然的⽅法确定线性回归模型 - 图28线性回归模型 - 图29

a. 基函数权重参数的线性回归模型 - 图30似然估计
我们看到在条件⾼斯噪声分布的情况下,线性模型的似然函数的最⼤化等价于平⽅和误差函数的最⼩化(噪声精度参数线性回归模型 - 图31非负)。通过求对数似然的梯度函数并令其为0,可以得到参数线性回归模型 - 图32的最大似然解,也是最小平方和误差解
线性回归模型 - 图33
这被称为最小平方问题的法方程。其中线性回归模型 - 图34是N×M的矩阵,不妨称之为样本-特征矩阵,因为矩阵中每行是对应一个样本在各个基函数维度上的特征,而每个列向量对应一个基函数特征维度在不同输入时的取值。
截屏2020-12-09 下午8.18.15.png
b. 偏置的似然估计
将偏置参数单独提出来,得到以下表达式
线性回归模型 - 图36
误差函数如果仅对偏置参数线性回归模型 - 图37求偏导,并令该导数为0,可得
线性回归模型 - 图38
这表明偏置线性回归模型 - 图39补偿了⽬标值的平均值(在训练集上的)与基函数的值的平均值的加权求和之间的差,也就是训练集上基函数预测值到真实目标值之间的”平均偏移量”。

c. 噪声精度的似然估计
同理,基于参数的似然估计,如果对噪声精度参数求最大似然化的估计值
线性回归模型 - 图40
这表明噪声精度的倒数(即噪声方差)的估计值由样本目标值和预测估计值间的“残留平均方差”确定。

1.3.2 理解线性模型的最大似然解

法方程这个定义实际上来自于求解大型线性方程组时的最小二乘问题。这里的线性模型也可以看作是这样一个求解线性方程组的问题,这里我们使用线性方程组的矩阵方程形式进行表示
线性回归模型 - 图41
最为理想的情况是该方程组有解,也就是说对于当前的数据集,目标值和输入向量之间确实是线性关系,这种情况下任意抽取的一组样本目标值向量线性回归模型 - 图42均能由矩阵线性回归模型 - 图43各个列向量之间的线性组合所表示。实际情况中,这个方程组常常是无解的,此时我们需要找到矩阵方程的最小二乘解。

*最小二乘问题
当我们需要找出一个近似解,使得在方程线性回归模型 - 图44无解的情况下找到一个最接近目标向量b的向量线性回归模型 - 图45——在欧式几何空间下,我们找使得距离线性回归模型 - 图46值最小的那个线性回归模型 - 图47
由于矩阵A线性映射得到的向量一定属于其列空间ColA,这就变成了找到b在子空间W=ColA上的正交投影线性回归模型 - 图48的问题,根据最佳逼近性质线性回归模型 - 图49就是ColA中最接近b的点。 :::info 若线性回归模型 - 图50,根据正交投影的分解可知线性回归模型 - 图51正交于ColA,即对于A中的任意列线性回归模型 - 图52线性回归模型 - 图53,也就是说线性回归模型 - 图54,可知
线性回归模型 - 图55
上式称为Ax=b对应的法方程线性回归模型 - 图56的最小二乘解与其法方程的非空解集一致。矩阵线性回归模型 - 图57可逆的充要条件是A的列线性无关,这种情况下可知线性回归模型 - 图58会有唯一的最小二乘解
线性回归模型 - 图59 :::

在线性模型的数据集拟合问题中,通过使用最小二乘法可以找到在目标向量线性回归模型 - 图60在M个基函数向量所张成的子空间线性回归模型 - 图61上的“正交投影线性回归模型 - 图62,这个投影是子空间线性回归模型 - 图63内和目标向量之间欧式距离最小的向量(这个距离称为最小二乘误差),我们称线性回归模型 - 图64线性回归模型 - 图65在空间线性回归模型 - 图66中的最佳近似
注意到这里的最小二乘解和之前通过最大似然方式求得的解形式是完全一致的。此时,我们已经将线性基函数模型的最大似然问题通过最小平方和误差函数,而平方和误差函数与线性回归模型 - 图67间的平方欧式距离仅相差一个常数系数,所以最终我们转换成一个最小二乘问题。
解中的复合矩阵 线性回归模型 - 图68,实际上被称为矩阵A的伪逆。当A为可逆的方阵时,这个伪逆正是矩阵的逆线性回归模型 - 图69

特殊情况处理
在实际应⽤中,当线性回归模型 - 图70接近奇异矩阵时,直接求解法⽅程会导致线性回归模型 - 图71难以计算,这通常来源于两个或者更多的基向量共线或者接近共线,最终的参数值会相当⼤。比如
这样的退化在处理真实数据集的时候并不罕见,这种数值计算上的困难可以通过奇异值分解来解决,分解后得到的特征向量之间是接近相互正交的。

1.3.3 最小平方的近似求解

最⼤似然解的求解过程涉及到⼀次处理整个数据集。这种批处理技术对于⼤规模数据集来说计算量有时会过于⼤了。那么使⽤顺序算法(在线算法)可能更有合适。顺序算法中,每次只考虑⼀个数据点,模型的参数在每观测到⼀个数据点之后进⾏更新,适⽤于实时的应⽤。如梯度下降算法(SGD),当已经观测过的样本数量为n时,其更新参数向量值的表达式如下
线性回归模型 - 图72
其中t是迭代轮数,线性回归模型 - 图73是参数更新的学习率。而线性回归模型 - 图74是第n个样本的误差函数。如果E为平方和误差函数,那么有
线性回归模型 - 图75
这称为最小均方算法(LMS)。

1.3.4 正则化

现在我们已经将线性模型的最大似然问题转换为了最小化平方和误差函数的问题。而之前简单提到过向误差函数中引入正则项的方法,以此来控制模型的复杂度。这里我们探讨平方和误差函数中加入正则项对线性模型的影响,先以简单的二次正则项为例

线性回归模型 - 图76
这种⽅法把参数的值向零的⽅向收缩。选择二次正则项的另一个好处是可导,便于似然函数求出解析解。此时的似然解为
线性回归模型 - 图77
对于更一般的正则化情况,我们使用如下形式的正则项
线性回归模型 - 图78
其中q=2时即为上面使用的二次正则项(也称为ridge正则)。另一种常见的是q=1时的lasso正则,它的性质是:如果λ充分⼤,那么某些基函数的权重系数线性回归模型 - 图79会变为零,对应的基函数不起作⽤,从⽽产⽣了⼀个稀疏模型。这使得确定最优的模型复杂度的问题从确定合适的基函数数量的问题转移到了确定正则化系数λ的合适值的问题上。
(同时关于权值w和正则化系数λ来最⼩化正则化的误差函数显然不是正确的⽅法,因为这样做会使得λ = 0,从⽽产⽣⾮正则化的解)
截屏2020-12-11 下午3.13.13.png

* 1.3.5 多输出


2 偏置-方差分解

在关于决策论的讨论中提到过,回归问题的决策阶段包括对于每个输⼊x,选择⼀个对于t值的具体的估计y(x)。假设这样做之后,产生了⼀个损失线性回归模型 - 图81,以平方和损失函数为例子
线性回归模型 - 图82
使得线性回归模型 - 图83最小的的估计函数为线性回归模型 - 图84,这说明了基于数据本身的不确定性,我们最小化损失的“最优选择”是使用线性回归模型 - 图85下的条件均值线性回归模型 - 图86作为估计值,这个最小损失估计函数可以认为是一个“理想模型”,这个理论最优的模型来自于我们从数据集中估计的条件概率分布线性回归模型 - 图87
引入最优估计函数后,我们进一步对损失函数进行分解,由线性回归模型 - 图88
线性回归模型 - 图89
第二项与我们的预测模型线性回归模型 - 图90无关,表示的是数据集内部的噪声——当我们使用理想模型时(最小化损失的估计函数),仍然残留多少平方误差。而第一项描述当前的模型函数和理想模型之间的“差距”。

假设有足够多的数据集线性回归模型 - 图91,每一个数据集线性回归模型 - 图92都是从同一个总体中独立抽样得到的,由于样本的随机性以及随机噪声的干扰,数据集之间必然存在差异,导致损失函数上的随机性。我们观察模型在平均情况下的表现,以此衡量模型的“总体拟合能力”。我们关于线性回归模型 - 图93求期望
截屏2020-12-11 上午1.35.51.png
线性回归模型 - 图95
我们看到线性回归模型 - 图96与回归函数线性回归模型 - 图97的差的平⽅期望可以表⽰为两项的和。第⼀项,被称为平⽅偏置(bias),表⽰所有数据集的平均预测与预期的回归函数之间的差异。第⼆项,被称为⽅差(variance),度量了对于单独的数据集,模型所给出的解在平均值附近波动的情况(因为根据条件概率线性回归模型 - 图98,同一个输入存在不同的目标值),因此也就度量了函数线性回归模型 - 图99对于特定的数据集选择的敏感程度。
我们知道正则化控制模型复杂度的方法是对模型参数进行收缩,甚至有的正则函数会将部分“无用”的参数置0。正则化对损失函数的影响是,当我们通过正则收缩限制了模型的参数取值范围,压缩了模型的“表达空间”,更小的参数使得模型输出对输入的微小扰动不那么敏感,也就是说降低了对于数据集选择方面的敏感程度,使模型更加趋于“稳定”,但受限的函数空间使得模型的拟合能力下降了。以之前的线性模型简单举例,如正则项使得部分基函数的权重大幅降低,我们知道最大似然函数的解析解等于最小化误差函数是的最小二乘解,当我们最小二乘解理解为目标向量线性回归模型 - 图100在基函数构成的子空间线性回归模型 - 图101上的“最佳近似”——正交投影线性回归模型 - 图102线性回归模型 - 图103由基函数线性组合得到,未引入正则时线性组合的权值范围不受限,而正则使得参数向变小的趋势收缩,限制了线性回归模型 - 图104的大小,从而限制了线性回归模型 - 图105。另一方面,随着线性回归模型 - 图106的变小,模型自身的参数也趋于稳定。
截屏2020-12-11 上午1.48.36.png
因此,对于⾮常灵活的模型来说,偏置较⼩,⽅差较⼤。对于相对固定的模型来说,偏置较⼤,⽅差较⼩。有着最优预测能⼒的模型时在偏置和⽅差之间取得最优的平衡的模型。
截屏2020-12-11 上午1.48.52.png
在实际应⽤中我们只有⼀个观测数据集,如果数据集足够大,我们可以通过像交叉验证这样的方法,进行多个数据集平均表现对比,从而进行模型选择。


3 贝叶斯线性回归

使⽤最⼤似然⽅法估计线性回归模型的参数的方法中,我们看到由基函数的数量控制的模型的复杂度需要根据数据集的规模进⾏调整,在增加正则项后,则转换为正则权重的设置问题,虽然基函数的数量和形式的选择仍然对于确 定模型的整体⾏为⼗分重要。这就产⽣了对于特定的应⽤确定合适的模型复杂度的问题。这个问题不能简单地通过最⼤化似然函数来确定,因为这总会产⽣过于复杂的模型和过拟合现象。虽然使用独⽴的额外数据能够⽤来确定模型的复杂度(选择多份数据集下的最佳估计),但是这要求较⼤的计算量与额外的数据。

3.1 方差已知下的后验分布

因此我们转⽽考虑线性回归的贝叶斯⽅法,这会避免最⼤似然的过拟合问题,也会引出使⽤训练数据本⾝确定模型复杂度的⾃动化⽅法。
延续最大似然方法中对样本的背景假设,若我们假设噪声精度参数线性回归模型 - 图109(方差的倒数)已知,此时的似然函数是二次型的指数形式,之前提到过对应的共轭先验为高斯分布的形式,设其为线性回归模型 - 图110。通过与先验概率相乘得到后验概率分布形式
截屏2020-12-11 下午12.24.27.png
如果对后验概率使用点估计,可得最大后验估计结果线性回归模型 - 图112,由于后验概率服从高斯分布,概率最大处即为均值处,所以线性回归模型 - 图113。实际上这个结果与最大似然估计结果是存在内在关联的,如果我们选择一类特定的高斯先验分布线性回归模型 - 图114,其特点是零均值并且各向同性,即权参数线性回归模型 - 图115各个维度相互独立,并且有统一的方差。此时后验分布参数为
线性回归模型 - 图116
这种情况下后验概率的对数形式为线性回归模型 - 图117
因此,后验分布关于线性回归模型 - 图118的最⼤化等价于对平⽅和误差函数加上⼀个⼆次正则项进⾏最⼩化,正则权重线性回归模型 - 图119。这也说明正则化的最大似然情况可以说是贝叶斯估计下的最大后验点估计中的一种“特例”,正则权重的选择等价于我们先验分布精度参数的选择。

3.2 贝叶斯线性回归用于顺序学习

我们从函数线性回归模型 - 图120中⼈⼯⽣成数据, 其中线性回归模型 - 图121。数据生成⽅法为:⾸先从均匀分布线性回归模型 - 图122中选择线性回归模型 - 图123的值,然后 计算线性回归模型 - 图124,最后增加⼀个标准差为0.2的⾼斯噪声,得到⽬标变量线性回归模型 - 图125,生成一个样本。 如下图所示,当新数据点被观测到的时候,当前的后验分布变成了先验分布。这张图的第⼀⾏对应于观测到任何数据点之前的情况,给出了w空间的先验概率分布的图像,以及函数线性回归模型 - 图126的六个样本,这六个样本的 w 都是从先验概率分布中抽取的。在第⼆⾏,我们看到了观测到⼀个数据点之后的情形。数据点的位置(x, t)由右侧⼀列中的蓝⾊圆圈表⽰。左侧⼀列是对于这个数据点的似然函数线性回归模型 - 图127关于w的函数图像。注意,似然函数提供了⼀个“温和”的限制,即直线必须穿过数据点附近的位置,其中附近位置的范围由噪声精度β确定。为了进⾏对⽐,我们将⽤来⽣成数据集的真实参数值位置在左侧⼀列里标记为⽩⾊⼗字。如果我们把这个似然函数与第⼀⾏的先验概率相乘,然后归⼀化,我们就得到了第⼆⾏中间的图给出的后验概率分布。从这个后验概率分布中抽取w的样 本,对应的回归函数线性回归模型 - 图128被画在了右侧⼀列的途中。注意,这些样本直线全部穿过数据点的附近位置。

截屏2020-12-11 下午3.15.57.png

3.3 预测分布

在计算得到了后验概率后,为了使得每次输入新的线性回归模型 - 图130值时我们都能给出相应的回归预测值线性回归模型 - 图131,计算预测分布
线性回归模型 - 图132
利用两个高斯分布的卷积运算,得到预测分布的具体形式仍为高斯分布。(如果w和β都被当成未知的,那么我们可以引⼊⼀个由⾼斯-Gamma分布定义的共轭先验分布,在这种情况下, 预测分布会是⼀个学⽣t分布)

线性回归模型 - 图133

这里第⼀项表⽰数据中的噪声,⽽第⼆项反映了与参数w关联的不确定性。由于噪声和w的分布是相互独⽴的⾼斯分布,因此它们的值是可以相加的。注意,当额外的数据点被观测到,线性回归模型 - 图134的值变小,后验概率分布会变窄。从⽽可以证明出 线性回归模型 - 图135。 在极限N→∞的情况下,公式第⼆项趋于零,从⽽预测分布的⽅差只与参数β控制的具有可加性的噪声有关。
另一方面,方差值是关于输入变量线性回归模型 - 图136的函数,输入值不同时最终预测结果的不确定性大小也会不同。如下图所示,我们调整⼀个由⾼斯基函数线性组合模型去拟合一个正弦数据集。这⾥,绿⾊曲线对应着产⽣数据点的函数线性回归模型 - 图137(带有附加的⾼斯噪声)。 在不同规模的四个数据集N = 1, N = 2, N = 4和N = 25下的表现。 每幅图中蓝色圈为数据集样本点,红⾊曲线对应的⾼斯预测分布的均值,红⾊阴影区域是均值两侧的⼀个标准差范围的区域。
截屏2020-12-12 下午12.22.35.png
不难看出:

  • 预测的不确定性依赖于线性回归模型 - 图139,并且在数据点的邻域内最⼩;
  • 不确定性的程度会随着观测到的数据点的增多⽽逐渐减⼩;

*3.4 等价核

线性基函数模型的贝叶斯后验均值解有⼀个有趣的解释,这个解释联系到了另一类的模型——核方法(包括高斯过程),之前已经计算得到了(噪声方差已知,先验方差各向同性前提下)后验均值的形式为线性回归模型 - 图140,将其代入线性基函数回归模型得到
线性回归模型 - 图141
因此在点线性回归模型 - 图142处的预测均值由训练集⽬标变量线性回归模型 - 图143的线性组合给出,抽象表示如下
线性回归模型 - 图144
像这样的回归函数,通过对训练集⾥⽬标值进⾏线性组合做预测,被称为
线性平滑,其中线性回归模型 - 图145被称为平滑矩阵或等价核**。注意等价核依赖于来⾃数据集的输⼊值线性回归模型 - 图146,因为这些输⼊值出现在了线性回归模型 - 图147的定义中。
截屏2020-12-12 下午2.53.17.png
上图给出了一维⾼斯基函数情形下的等价核,以及在三个不同的线性回归模型 - 图149值的情况下,核函数线性回归模型 - 图150与训练数据集中的点线性回归模型 - 图151的函数关系。横轴为当前输入线性回归模型 - 图152,纵轴为训练集输入线性回归模型 - 图153,热力图为等价核线性回归模型 - 图154的值。我们看到较大的核函数值均分布在对角线上,即线性回归模型 - 图155及其周围邻域,因此在线性回归模型 - 图156处的预测分布的均值线性回归模型 - 图157主要受到这部分样本点的⽬标值加权组合得到。距离线性回归模型 - 图158较近的数据点可以赋⼀个较⾼的权值,⽽距离线性回归模型 - 图159较远的数据点可以赋⼀个较低的权值。 直观来看,与远处的证据相⽐,我们把局部的证据赋予更⾼的权值似乎是更合理的。这与非参数估计中的近邻方法类似,通过找到新输入的线性回归模型 - 图160在训练样本空间中的“近邻”来进行目标估计。
我们已经看到,⼀个等价核定义了模型的权值。通过这个权值,训练数据集⾥的⽬标值被组合,然后对新的 x 值做预测。可以证明这些权值的和等于1,即
线性回归模型 - 图161
此外,还能从协方差的角度来理解等价核,我们计算待预测的输入线性回归模型 - 图162和数据集中某个样本点线性回归模型 - 图163的协方差。如下式所示,与待预测输入距离较近的点的预测均值相关性较⾼,⽽对于距离较远的点对,相关性就较低。
线性回归模型 - 图164
⽤核函数表⽰线性回归给出了解决回归问题的另⼀种⽅法。我们不引⼊⼀组基函数(它隐式地定义了⼀个等价的核),⽽是直接定义⼀个局部的核函数,然后在给定观测数据集的条件下,使⽤这个核函数对新的输⼊变量x做预测。 这就引出了⽤于回归问题(以及分类问题的⼀个很实⽤的框架,被称为⾼斯过程。这将在之后详细讨论。


4 贝叶斯模型比较

我们知道最大似然点估计的一大问题是模型选择,即如何通过调节模型复杂度控制参数来防止过拟合。在贝叶斯框架下,最⼤似然估计相关联的过拟合问题是通过对模型的参数进⾏求和或者积分的⽅式(⽽不是进⾏点估计)来避免的。 这样模型可以直接在训练数据上进⾏⽐较,⽽不需要验证集。这使得所有的数据都能够被⽤于训练,并且避免了交叉验证当中每个模型要运⾏多次训练过程的问题。
给定的数据集线性回归模型 - 图165,以及模型参数线性回归模型 - 图166。我们需要为每一个可能的参数值都选择一个对应一个模型,假设我们设定了L个候选模型线性回归模型 - 图167,并将线性回归模型 - 图168参数空间的所以可能取值均映射到其中的一个模型中,比如我们将线性回归模型 - 图169的参数空间均匀划分为L个区域对应这L个模型,也就是说每个模型都对应于一个参数的子空间,一旦模型参数的估计值落入该子空间线性回归模型 - 图170中,则可认为当前模型为线性回归模型 - 图171,从概率上来说我们仅仅是将连续化的参数分布离散化了而言。模型的后验分布同样可通过“先验和似然”进行表示
线性回归模型 - 图172
其中先验分布能够表达不同模型之间的初始优先级。一般情况下我们简单地假设所有的模型都有相同的先验概率,线性回归模型 - 图173称为模型证据,表现了数据所反映出的模型的优先级,也被称为边缘似然。两个模型的模型证据的⽐值被称为贝叶斯因⼦。
对于这L个候选模型构成了一个离散的后验分布,根据其“优先级”进行加权,可得到最终的预测分布
线性回归模型 - 图174
这就是混合模型的一个例子,整体的预测分布由各个“候选模型”的加权平均得到,权值为模型各自的后验概率值。如果我们仅保留一个后验概率最大的模型用于预测,则回到了模型选择。
截屏2020-12-14 上午12.04.12.png
通过上图,我们可以进⼀步深⼊认识贝叶斯模型⽐较,并且理解边缘似然是如何倾向于选择中等复杂度的模型的。图中横轴是可能的数据集构成的空间的⼀个⼀维表⽰,因此轴上的每个点都对应着⼀个具体的数据集。我们现在考虑三个模型线性回归模型 - 图176 ,复杂度依次增加。 假设我们让这三个模型⾃动产⽣样本数据集,然后观察⽣成的数据集的分布。任意给定的模型都能够⽣成⼀系列不同的数据集,这是因为模型的参数由先验概率分布控制,对于任意⼀种参数的选择,在⽬标变量上都可能有随机的噪声。⼀个简单的模型(例如,基于⼀阶多项式的模型)⼏乎没有变化性,因此⽣成的数据集彼此之间都⼗分相似。于是它的分布线性回归模型 - 图177就被限制在横轴的⼀个相对⼩的区域。 相反⼀个复杂的模型可以⽣成变化性相当⼤的数据集, 因此它的分布线性回归模型 - 图178遍布了数据集空间的⼀个相当⼤的区域。由于概率分布线性回归模型 - 图179是归⼀化的,因此我们看到特定的数据集线性回归模型 - 图180对中等复杂度的模型有最⾼的模型证据。也就是说,简单的模型不能很好地拟合数据,即线性回归模型 - 图181。⽽复杂的模型把它的预测概率散布于过多的可能的数据集当中,从⽽对它们当中的每⼀个赋予的概率都相对较⼩,即线性回归模型 - 图182

我们已经看到,贝叶斯框架避免了过拟合的问题,并且使得模型能够基于训练数据⾃⾝进⾏对⽐。但是,与模式识别中任何其他的⽅法⼀样,贝叶斯⽅法需要对模型的形式作出假设,并且如果这些假设不合理,那么结果就会出错。


*5 证据近似

在处理线性基函数模型的纯粹的贝叶斯⽅法中,我们会引⼊超参数α和β的先验分布,然后通过对超参数以及参数 w求积分的⽅式做预测。但是,虽然我们可以解析地求出对w的积分或者求出对超参数的积分,但是对所有这些变量完整地求积分是没有解析解的。这⾥我们讨论⼀种近似⽅法。这种⽅法中,我们⾸先对参数w求积分,得到边缘似然函数,然后通过最⼤化边缘似然函数确定超参数的值。 这个框架在统计学的⽂献中被称为经验贝叶斯,或第⼆类最⼤似然、推⼴的最⼤似然。
TODO

5.1 证据函数

5.2 参数有效数量


6 固定基函数的局限性

在本章中,我们已经关注了由固定的⾮线性基函数的线性组合组成的模型。我们已经看到,对于参数的线性性质的假设产⽣了⼀系列有⽤的性质,包括最⼩平⽅问题的解析解,以及容易计算的贝叶斯⽅法。此外,对于⼀个合适的基函数的选择,我们可以建⽴输⼊向量到⽬标值之间的任意⾮线性映射。
因此,似乎这样的模型建⽴的解决模式识别问题的通⽤框架。不幸的是,线性模型有⼀些重要的局限性,困难的产⽣主要是因为我们假设了基函数在观测到任何数据之前就被固定了下来,⽽这正是维度灾难问题的⼀个表现形式——基函数的数量随着输⼊空间的维度线性回归模型 - 图183迅速增长,通常是指数⽅式的增长(线性模型的复杂度仅能通过基函数的数量来增加,而且“增长率”缓慢)。