0 本章结构

0.1 关键词

概率建模/密度估计、参数估计、共轭先验、非参数估计、高斯分布

0.2 Map

概率分布 - 图1

0.3 引言

本章中讨论的概率分布的⼀个作⽤是在给定有限次观测 x1 , . . . , xN 的前提下,对随机变量x的概率分布p(x)建模,这个问题被称为密度估计。 本章中,我们会假定数据点是独⽴同分布的。 应该强调的是,密度估计问题本质上是病态的,因为产⽣有限的观测数据集的概率分布有⽆限多种。实际上,任何在数据点 x1 , . . . , xN 处概率⾮零的概率分布p(x)都是⼀个潜在的候选。

参数分布:假定分布有一个具体的函数形式,并由少量可调节的参数控制了整个概率分布。
参数估计:为了把这种概率模型应⽤到密度估计问题中,我们需要在给定观察数据集的条件下,确定参数的合适的值。在频率学家的观点中,我们通过最优化某些准则(例如似然函数)来确定参数的具体值。而在贝叶斯观点中,给定观察数据, 再引⼊参数的先验分布,然后使⽤贝叶斯定理来计算对应后验概率分布。

共轭先验:它使得后验概率分布的函数形式与先验概率相同,因此使得贝叶斯分析得到了极⼤的简化。
⾮参数密度估计⽅法:在此⽅法中分布的形式通常依赖于数据集的规模。虽然这些模型仍然具有参数,但是这些参数控制的是模型的复杂度⽽不是分布的具体形式。

1 参数化分布

1.1 离散随机变量分布

1.1.1 二项分布

u=1378532195,2179048684&fm=26&gp=0.jpg

  • 从伯努利分布到二项分布:关键分布参数;
  • 最大似然估计的应用;
  • 最大后验的起点选择:特殊的共轭先验;
  • 从先验到后验:实现方式与内在联系;

a. 伯努利分布

二元随机变量包含两种状态概率分布 - 图3,将状态1的概率设定为参数概率分布 - 图4,对应有概率分布 - 图5
设定Bernoulli分布:
概率分布 - 图6
随机变量数字特征:
概率分布 - 图7
**
收集到关于二元随机变量x的大小为N的数据集概率分布 - 图8,其似然函数及对数似然形式为:
概率分布 - 图9

对数似然对参数概率分布 - 图10求导并找到极值点(+存在性证明?),可得关于参数概率分布 - 图11的似然估计值:
概率分布 - 图12

这里的概率分布 - 图13表示N次试验中x=1出现的次数,最大似然解表示x=1在所有试验中出现的次数占比。

b. 二项分布

从伯努利分布的二元随机变量概率分布 - 图14出发,在对x进行了N次重复的独立试验后,我们得到了一个新的随机变量概率分布 - 图15,由此定义一个新的随机变量分布——“二项分布”:
概率分布 - 图16

(要证明分布函数属于概率分布,可验证其是否满足约束 柯式公理体系

c. 先验分布选择

而使用样本的似然去近似总体似然,在N较小时容易出现大幅度的偏离,也就是“过拟合”,可引入“靠谱的”先验分布进行修正。
贝叶斯概率理论中,后验概率描述了先验概率加入了额外的样本信息后调整所得的新分布。如果能找到合适的先验分布形式,使其在“似然函数的修正”下(posterior ∝ likelihood × prior)仅仅发生参数上的变化,也就是先验和后验的分布形式是一致的,则称之为共轭先验。比如二项分布的共轭先验是Beta分布:
概率分布 - 图17
给定先验分布概率分布 - 图18,对于大小为N的数据集,令概率分布 - 图19,对应的后验分布为:
概率分布 - 图20

使用共轭先验作为先验假设的好处是可以应用在实时增量学习的场景中,每一次补充新的样本时,仅在之前的后验分布上进行参数调整(并且我们知道参数调整的具体方式),再把当前的后验分布作为下一次更新时的先验分布,只需要设置好初始值,计算量不大(很理想很贝叶斯)。而如果不使用共轭先验,每一次计算后的后验概率分布形态未知不可控,计算量大且不易记录保存。

我们使用贝叶斯方法对二项分布产生的新样本进行预测:
概率分布 - 图21
即为参数概率分布 - 图22的后验分布概率分布 - 图23期望值,由Beta分布的期望公式可知:
概率分布 - 图24

d. 先验与后验的(数字特征)联系

对于c中的这个预测结果,可以简单理解为x=1的观测结果(包括实际的观测值和假设的先验观测值) 在总体实验中所占的⽐例。在数据集⽆限⼤的极限情况下概率分布 - 图25 ,该结果与最⼤似然的结果一致。贝叶斯结果和最⼤似然结果在数据集的规模趋于⽆穷的情况下会统⼀到⼀起是⼀个很普遍的现象。而对于有限规模的数据集, 概率分布 - 图26的后验均值总是位于先验均值和最⼤似然估计之间,就像“一种经验和证据之间的折中”。

再以一个一般的贝叶斯推断为例子,联合概率为概率分布 - 图27,其中概率分布 - 图28为分布参数,D为数据集。
概率分布 - 图29

这表明概率分布 - 图30的后验均值在产生数据集的整个分布上做平均(即在总体上重复抽样多次,生成大量大小为N的数据集D并以此计算后验分布,得到的多个后验分布再进行平均),最终会等于概率分布 - 图31的先验均值。
在方差上也能找到先验和后验的关联:
概率分布 - 图32

在右侧,第一项是概率分布 - 图33的平均后验方差,第二项是概率分布 - 图34的后验均值的方差。由于方差是正数,因此从平均来看概率分布 - 图35的后验方差小于先验方差。且后验均值的方差越大,这个方差的减小就越大。nice!

1.1.2 多项分布

  • 从二项到多项:“1-of-K”:多元变量间约束;
  • 多项式分布关键参数与其最大似然解:拉格朗日乘子法;
  • 多项式分布后验估计的关键:狄利克雷先验;

a. 从二项到多项

sz.png
二项分布中的n次实验中每次实验结果只有两种状态,而实际生活中可能存在K>2种互斥的状态。用”1-of-K”的方式对这种情况进行表示(one-hot编码的过程)。比如我们从掷硬币到现在掷骰子,骰子有K=6种状态,当我们掷出了3点时,可表示为概率分布 - 图37,注意状态间是互斥的,1仅会出现在“状态表示向量”中的一个维度上,如果我们用概率分布 - 图38表示第k种状态位概率分布 - 图39的概率,此时的x服从以下概率分布
概率分布 - 图40
我们对这个分布也进行N次数独立重复实验,给定观测次数N,这N个观测值构成了数据集概率分布 - 图41,此时似然函数为
概率分布 - 图42
这里概率分布 - 图43表示N次观测中状态k出现的次数总和,似然函数的大小与观测结果仅通过这部分统计量相关联,称之为充分统计量。通过拉格朗日法(多元情况比二元状态下多一个参数约束)求解可得这K个参数的最大似然估计值
概率分布 - 图44

对于这N个观测值构成了数据集概率分布 - 图45,假设每种状态被观测到的次数为概率分布 - 图46,这K个随机变量构成联合分布
概率分布 - 图47
这就是多项分布,其中概率分布 - 图48,是概率分布的归一化系数,可以理解为把N个物体分成概率分布 - 图49的K组的方案总数这样一个组合问题的答案。

c. 多项分布先验——狄利克雷分布


1.2 连续随机变量分布

1.2.1 高斯(正态)分布

  • 多元高斯分布

a. 参数概率分布 - 图50的实际含义意义与简要证明
b. 正交分解:利用协方差矩阵对称性;
c. 重要性质:条件概率运算和概率加法不改变“分布类型”
条件高斯分布;
边缘高斯分布;

  • 高斯分布的参数估计

a. 最大似然及其顺序估计;
b. 贝叶斯估计;

  • 混合高斯分布

a. 一元高斯分布

概率分布 - 图51

b. 多元高斯分布

概率分布 - 图52
其中概率分布 - 图53是对应于概率分布 - 图54的D维均值向量,而概率分布 - 图55为D×D的协方差矩阵,概率分布 - 图56为其行列式。
(即可证 概率分布 - 图57

多元高斯分布长出现在多个随机变量之和的情况下,比如许多人为设计的系统中,存在多个相对独立的子模块,每个模块产生的噪声分布均未知,整体系统产生的噪声表示为各个子系统的和的形式,根据中心极限定理,整体随机噪声的分布随着子系统的数量增加而趋近于高斯分布。
我们将多元高斯概率分布函数中关于随机向量概率分布 - 图58的项提出来,也就是指数项,这是一个关于概率分布 - 图59二次型
(这里的二次型可理解为向量概率分布 - 图60概率分布 - 图61之间的某种距离,实际上叫马氏距离🐎 )
概率分布 - 图62
其中概率分布 - 图63为对称方阵,对称矩阵有许多良好的性质(详见7 对称矩阵与二次型),如正交对角性,即对于n×n的对称矩阵概率分布 - 图64,可相似对角化为概率分布 - 图65的形式,其中P是由矩阵概率分布 - 图66的单位正交特征向量概率分布 - 图67构成的正交矩阵(满足概率分布 - 图68),D对角矩阵,对角元素为对应特征值概率分布 - 图69。此时二次型存在变量替换概率分布 - 图70,可将其中Q(x)中的交叉项(即非二次项)消去,得到
概率分布 - 图71
对于二次型概率分布 - 图72,假设特征值概率分布 - 图73均为正,那么二次型的对应的点在空间中分布在一个椭球面上,椭球的实际的中心是概率分布 - 图74,二次型的值为一常数。
在变量替换的情况下,为了知道多元高斯分布的形式,我们还需要计算协方差矩阵的行列式(3 行列式
概率分布 - 图75

代入多元高斯分布中进行变量替换有
概率分布 - 图76
这正是D个相互独立的一元高斯的概率分布函数乘积形式。因此我们通过使用特征向量在D维空间概率分布 - 图77中构建了一个新的坐标系,在这个坐标系中多元高斯联合概率分布可以分解为D个独立的一元概率分布的乘积形式。(类似一个正交分解的过程,投影在多个相互正交的一维高斯空间中)

c. 高斯分布特点

  • 优势:
    • (相对)广泛存在性;
    • 良好的数学特性,如对称,以及后边会提到的条件分布、边缘分布仍为高斯分布,而且共轭先验分布可知,这些性质在贝叶斯概率计算中很有用;
  • 局限性:
    • 单峰性(以均值点为中心)
    • 多元情况下参数量呈现二次方速度增长;

d. 条件高斯分布、边缘高斯分布

  • 多元高斯分布的条件概率分布也是高斯分布。

    1. 按已知条件变量和未知变量将原本的D维向量分割为概率分布 - 图78两部分,进而将均值参数向量和协方差矩阵也进行分割表示概率分布 - 图79
    2. 条件概率分布概率分布 - 图80表达式仍为高斯分布形式(围绕二次型的形式);
    3. 重新计算对应的均值和协方差;
  • 多元高斯分布的边缘概率分布也是高斯分布。

    • 概率分布 - 图81

截屏2020-12-02 下午10.04.37.png
略去求解过程,最终结论如下:
给定一个多元联合高斯分布概率分布 - 图83,令概率分布 - 图84,且

概率分布 - 图85
条件概率分布服从:
概率分布 - 图86

边缘概率分布服从:
概率分布 - 图87
此外,通过使用贝叶斯定理,我们也能求出概率分布 - 图88的概率分布,同样都是高斯分布的形式。(高斯分布就像一个球体,你从任何一个面切开,截面都是“圆”)

1.2.2 高斯分布的最大似然估计

回顾最大似然一般求解过程:

  1. 写出关于样本的对数似然函数;
  2. 关于均值参数求导得均值估计概率分布 - 图89
  3. 若分布依赖于方差参数,通过概率分布 - 图90进一步求出方差似然估计值概率分布 - 图91
  4. 对方差的估计值进行无偏性修正,概率分布 - 图92

对于从多元高斯分布概率分布 - 图93中独立抽取出的N个样本概率分布 - 图94,对数似然函数为
概率分布 - 图95
概率分布 - 图96看作未知定值量去估计,该对数函数的大小仅仅依赖于两个与样本相关的变量,分别是概率分布 - 图97概率分布 - 图98,之前提到过这被称为(高斯分布的)充分统计量,对应于样本的一阶和二阶原点矩。
对该对数似然函数关于概率分布 - 图99进行求导,并令这个导数为0,得出
概率分布 - 图100
利用关于均值参数概率分布 - 图101的最大似然分布估计去求协方差参数概率分布 - 图102
概率分布 - 图103
之前提到过,由于使用似然估计值概率分布 - 图104求得的方差是有偏的(期望偏小),需要使用修正
概率分布 - 图105
至此,我们便基本完成了关于多元高斯分布的最大似然估计。

1.2.3 最大似然顺序估计算法

高斯分布的顺序估计

我们知道顺序统计方法的有点是可以每次处理一个样本点,并在处理后将之抛弃,而不必存储样本点直到能构成一个数据集,这点对于有在线学习的算法模型有帮助。
对于高斯分布,我们以均值参数为例,看一下顺序估计的求解过程:
概率分布 - 图106
这个表达式可以直观解读为:当我们已经有N-1个样本估计的参数时,对于新获取了第N个样本,把旧的估计结果沿着“错误信号”方向概率分布 - 图107概率分布 - 图108的“学习率”移动一个微小的量,随着N的增大这个移动量将越来越小。

通用顺序估计算法

但是对于非高斯的概率分布,无法使用这种简洁方法求解。而通常使用Robbins-Monro算法,该算法定义了一个回归函数概率分布 - 图109,目标是找到使得回归函数概率分布 - 图110的根概率分布 - 图111。其主要过程由下式给出(形似梯度下降)
概率分布 - 图112
而最大似然函数的求解过程,可以等价为R-M算法中定义的回归函数寻找根的过程,因此可以套用该算法进行顺序估计。TODO

1.2.4 高斯分布的贝叶斯估计

a. 方差已知,估计均值

通过贝叶斯估计进行分布参数估计时,我们通常需要先选择先验分布的形式,对于高斯分布而言,我们以一维高斯分布为例,首先我们观察似然函数的形式
概率分布 - 图113
不难发现似然函数是N个独立的一维高斯分布的乘积形式,由于其指数形式特性,如果我们将先验分布也设为高斯分布概率分布 - 图114,将先验分布与似然函数相乘后
概率分布 - 图115
最终可得后验概率的函数形式为
概率分布 - 图116
后验概率的函数形式仍然为高斯分布。说明高斯先验正是该似然函数的一个共轭分布。注意到后验概率的均值参数估计概率分布 - 图117是先验均值概率分布 - 图118和似然估计均值概率分布 - 图119的线性组合。当N为0时概率分布 - 图120,当概率分布 - 图121。而对于方差,我们定义方差的导数为精度(因为方差表示随机变量偏离其均值中心的平均程度,方差越小概率分布越集中于均值附近,更容易“精准”估计),而后验分布的精度等于先验精度与N倍的分布方差(已知)之和,N每增大一点,这个后验精度值也随着增大。说明随着观测数据的增加,后验分布的方差在不断减小,直到趋近于0,此时后验概率分布的均值在似然估计值概率分布 - 图122附近呈尖峰形态,其值被“精确定位”在了似然估计值上。
截屏2020-12-03 下午9.13.51.png

*贝叶斯框架下的顺序估计

概率分布 - 图124
所以说,贝叶斯框架下顺序学习估计是很“自然”的。

b. 均值已知,估计方差

对于精度参数的共轭先验为Gamma分布,

c. 方差和均值均需要估计

先验分布为正态(高斯)-Wishart分布,

*学生t分布

t分布的基本形式
截屏2020-12-03 下午9.51.22.png
截屏2020-12-03 下午9.50.51.png
t分布可通过无限多个均值相同但是精度不同(或者方差不同)的高斯分布相加得到(就是积分运算),可表示为无限维的高斯混合模型。这样一个分布相比高斯分布具有更长的“尾巴”,对于数据集中的异常点并不像高斯分布那样“敏感”,这也可以从其似然估计函数表达式中看出来,学生t分布更具有鲁棒性
截屏2020-12-03 下午9.50.38.png

1.2.5 混合高斯分布

通过将基本的概率分布(如⾼斯分布)进⾏线性组合(归一化为概率模型),被称为混合模型。如下图所示,⾼斯分布的线性组合可以给出相当复杂的概率密度形式。通过使⽤⾜够多的⾼斯分布,并且调节它们的均值和⽅差以及线性组合的系数,⼏乎可以以任意精度近似所有的连续概率密度函数。
截屏2020-12-04 上午11.07.02.png
形似这样的分布称为混合高斯分布,由K个高斯概率分布线性组合而成,每个高斯分布称为混合高斯的成分
概率分布 - 图129
其中概率分布 - 图130称为混合系数,由于混合高斯分布满足概率分布 - 图131
可知混合系数是各个成分的归一化系数,概率分布 - 图132
注意到混合高斯分布是多个条件概率的归一化加和形式,联系离散情况下概率的加和与乘积规则
概率分布 - 图133
其中概率分布 - 图134为离散的随机变量,满足概率分布 - 图135,因此这与混合分布的表达式是一致的。从这个角度来理解混合分布,我们把概率分布 - 图136看成选择第k个成分的先验概率,把各个成分分布理解为以概率分布 - 图137为条件时x的条件概率,这里的条件指的就是各个高斯成分自身的参数概率分布 - 图138
相比于单峰的高斯分布,混合高斯分布有着更加强大的拟合能力,但直接进行参数估计也更加困难,因为其似然函数没有(封闭的?)解析解,需要使用参数迭代算法或者EM算法来求解。

1.2.6 *周期变量


1.3 指数族分布

1.3.1 指数族的统一形式

⽬前为⽌在本章中研究的概率分布(⾼斯混合分布除外)都是⼀⼤类被称为指数族分布的概率分布的具体例⼦。这里简单讨论一下指数族分布中成员的一些共性。指数族分布的统一形式如下
概率分布 - 图139
可以给出之前提到过的多个分布在指数族标准形式下的表达式:

  • 伯努利分布

  • 多项分布

  • 高斯分布

1.3.2 指数族的最大似然估计法

1.3.3 指数族的先验

1.3.4 无信息先验

如何在对先验分布一无所知的情况下进行先验分布的假设?


2 非参数化方法

我们已经讨论过的概率分布都有具体的函数形式,并且由少量的参数控制。这些参数的值可以通过数据集进行估计,这被称为概率密度建模的参数化⽅法。这种⽅法的⼀个重要局限性是说这种概率分布的选择是人为的,那么对于实际的数据来说可能是⼀个很差的模型,二者的分布相差甚远,从⽽会导致在新样本上的预测表现相当差。比如之前提过的,选择单峰的高斯分布去拟合一个实际上是多峰概率分布的数据。

2.1 非参数估计的思路

2.1.1 直方图的“直觉”

如果我们想要更少的假设,对概率分布的形式不做具体的限制,可以使用非参数方法。常见的有直方图方法,当我们想知道一个年级所有同学的数学水平分布情况,常见的一个做法是取本次期末考试的数学成绩,以10分为一个区间进行区间分割,分别统计概率分布 - 图140这10个区间下学生的数量,统计生成一个直方图,近似表示“真实的学生数学水平分布”。受限于样本的数量,我们无法将区间分割得很小,因为很可能出现某个分数上没有学生,选择区间的大小类似于绪论里多项式拟合问题中的多项式阶数选择,起到控制模型复杂度的作用。不同的区间大小影响如下图所示
截屏2020-12-04 下午5.02.38.png
在实际应⽤中,直⽅图⽅法对于快速地将⼀维或者⼆维的数据可视化很有⽤,但是并不适⽤于⼤多数(尤其多元的)概率密度估计的应⽤。⼀个明显的问题是估计的概率密度具有不连续性,这种不连续性是因为区间边缘造成的,⽽不是因为⽣成数据的概率分布本⾝的性质造成。另⼀个主要的局限性是维数放⼤。如果我们把D维空间的每⼀维的变量都划分到M个区间中,那么区间的总数为概率分布 - 图142。随着维度D的增加呈现指数增长,正是维度灾难的⼀个例⼦。 接下来会讨论两种更具适应性的非参数估计方法。

2.1.2 完全依靠频率的密度估计

对于一个D维空间下的概率分布概率分布 - 图143,我们设该空间为欧几里得空间,即空间中的距离由欧式距离定义。对于空间中任意一点概率分布 - 图144,如果我们能估计该点的概率密度值概率分布 - 图145,并将这个估计方法应用在整个定义域里,便能得到任意一点的概率密度,从而“得到”了其概率分布。先假设空间中很小的一个区域R,该区域里的概率质量(概率值)满足
概率分布 - 图146
当收集到了N次实验观测结果概率分布 - 图147,对于数据集中任意一个概率分布 - 图148是否落在区域R内,这是一个伯努利分布问题,其参数为P,N次实验中概率分布 - 图149落在区域R内的总次数K则服从对应的二项分布
概率分布 - 图150
根据均值和方差的运算性质概率分布 - 图151,有概率分布 - 图152
注意到当概率分布 - 图153时,概率分布 - 图154,此时概率分布在P值附近呈现尖峰分布。(也可以通过大数定律解释)
概率分布 - 图155
而当区域R的范围足够小的时候,在R内的概率密度可以大致认为是不变的常数概率分布 - 图156,假定区域大小为V,则有
概率分布 - 图157
结合(1)、(2)两式的条件可知当概率分布 - 图158时有
概率分布 - 图159
注意这里依赖于两个相互⽭盾的假设,即区域R要⾜够⼩,使得这个区域内的概率密度近似为常数,但是也要⾜够⼤,使得落在这个区域内的数据点的数量K能够⾜够让⼆项分布达到尖峰。
我们有两种⽅式利⽤公式(3)的结果。可以固定K然后从数据中确定V的值,这就是K近邻⽅法。还可以固定V然后从数据中确定K,这就是核⽅法。

2.2 核密度估计

  • 先固定V,再确定K


我们通过设置一个
核函数**来固定V。对于空间中任意概率分布 - 图160,核函数定义一个以概率分布 - 图161为中心体积固定为V的邻域空间,
概率分布 - 图162
由于任意点x的概率满足 概率分布 - 图163,而N和V均为正数,可得核函数的限制条件 TODO?
概率分布 - 图164

Parzen窗核函数

较为直观的核函数是将V设为一个以x为中心,边长为h的D维立方形,其体积概率分布 - 图165。对于数据集中任意一个样本概率分布 - 图166,如果样本点位于以概率分布 - 图167为中心的边长为h的D维立方体内,则概率分布 - 图168的值为1,认为样本处在以当前概率分布 - 图169为中心的体积为概率分布 - 图170的邻域空间内。这表示在任意维度d上都满足概率分布 - 图171,因此在使用该函数前必须对概率分布 - 图172各个特征维度上进行归一化处理,保证尺度的一致性?最终得到一个阶跃形式的分段函数
概率分布 - 图173
此时在x点处的概率密度估计值为
概率分布 - 图174
被称为核密度估计或Parzen估计。它的⼀⼤优点是不需要进⾏“训练”。然⽽,这也是⼀个巨⼤的缺点,因为估计概率密度的计算代价随着数据集的规模线性增长。
这里为什么不用球体呢?

高斯核函数

核密度估计有⼀个问题, 这个问题也是直⽅图⽅法具有的问题中的⼀个:⼈为带来的⾮连续性。体现在之前所述的核密度估计⽅法中⽴⽅体的边界处。如果我们选择⼀个平滑的核函数,那么我们就可以得到⼀个更加光滑的模型。⼀个常见的选择是⾼斯核函数,可得到下⾯的核概率密度模型
概率分布 - 图175
注意到这里的概率密度估计是N个高斯分布的和的形式,其中每个高斯分布的均值为概率分布 - 图176,标准差为概率分布 - 图177。多元下与协方差矩阵行列式相关,有概率分布 - 图178。(这表示样本在D维空间中的各个维度上有独立性假设,且认为各个维度上特征的方差也是一致的?)
这表明如果以数据集中每个样本的值概率分布 - 图179作为均值参数,并设定统一的方差参数概率分布 - 图180,将这N个独立的高斯分布加和,再除以N进行概率归一化,我们便能得到了一个更加平滑的核概率密度模型。这里的方差参数概率分布 - 图181控制了该高斯核密度模型的复杂度
截屏2020-12-05 上午9.16.03.png

2.3 近邻方法

  • 先固定K,再确定V

核⽅法进⾏概率密度估计的⼀个困难之处是控制核宽度的参数h对于所有的核都是固定的。在⾼数据密度的区域,⼤的h值可能会造成过度平滑,并且破坏了本应从数据中提取出的结构。但是减⼩h的值可能导致数据空间中低密度区域估计的噪声。
与之前固定V然后从数据中确定K的值不同,我们考虑固定K的值然后使⽤数据来确定合适的V值。为了完成这⼀点,我们考虑⼀个以x为中⼼的⼩球体,并且允许球体的半径可以⾃由增长,直到它精确地包含K个数据点,假设此时球体的最终体积为V,则x处的概率密度估计式如下
概率分布 - 图183
这种⽅法被称为K近邻⽅法。注意,由K近邻⽅法得到的模型不是真实的概率密度模型,因为它在整个空间的积分是发散的。并且各个维度之间也需要归一化处理。
下面介绍K近邻的方法如何应用到分类问题中,假设数据集样本总数为N,共有m个类别概率分布 - 图184,用概率分布 - 图185表示数据集中属于类别概率分布 - 图186的样本数,对于空间中任意位置的点x,我们增加V的大小直到包含K个样本点,其中属于某类别概率分布 - 图187的样本数为概率分布 - 图188。根据概率密度估计公式概率分布 - 图189和贝叶斯定理有
概率分布 - 图190
这里的似然概率概率分布 - 图191表示已知x属于单独某一类情况下,x在空间中的概率分布,所以仅使用属于类别概率分布 - 图192的样本进行估计。
如果我们想最⼩化错误分类的概率,可以把测试点x分配给有着最⼤后验概率的类别,这对应于最⼤的概率分布 - 图193。模型由K值控制概率分布的光滑程度,与之前⼀样,K的选择既不能过⼤也不能过⼩——⼩的K值会使得每个类别有许多⼩区域,⽽⼤的K值会产⽣数量较少⾯积较⼤的区域。
截屏2020-12-05 下午4.22.47.png