Classification(分类) - 《机器学习》

简介

简介

预设定相应的函数模型－Model
设定损失函数－Loss function
求解最优的函数模型－Find the best function
通过函数对未知数据的类别进行预测
与Regression不同的是，Classification会对函数的输出进行离散化处理，以满足其特殊的要求
该课程中的方法针对的是对未知对象在已知类别当中进行分类
课程中先提出了一种基于概率分布的解决方法

一、函数模型以及误差函数的定义

以最简单的二元分类问题为例，设定有两个类别，分别为 $Classification(分类) - 图1$ ， $Classification(分类) - 图2$ ，我们需要进行分类的随机变量是 $Classification(分类) - 图3$ ，则 $Classification(分类) - 图4$ 属于 $Classification(分类) - 图5$ 类的概率为：

$Classification(分类) - 图6$ %3D%5Cfrac%7BP(x%7CC_1)P(C_1)%7D%7BP(x%7CC_1)P(C_1)%2BP(x%7CC_2)P(C_2)%7D%0A#card=math&code=P%28C_1%7Cx%29%3D%5Cfrac%7BP%28x%7CC_1%29P%28C_1%29%7D%7BP%28x%7CC_1%29P%28C_1%29%2BP%28x%7CC_2%29P%28C_2%29%7D%0A)

$Classification(分类) - 图7$ %3D%5Cbegin%7Bcases%7D%20C_2%5Cquad%20P(C_1%7Cx)%3C0.5%5C%5C%20C_1%5Cquad%20P(C_1%7Cx)%3E0.5%20%20%5Cend%7Bcases%7D%0A#card=math&code=f%28x%29%3D%5Cbegin%7Bcases%7D%20C_2%5Cquad%20P%28C_1%7Cx%29%3C0.5%5C%5C%20C_1%5Cquad%20P%28C_1%7Cx%29%3E0.5%20%20%5Cend%7Bcases%7D%0A)

$Classification(分类) - 图8$ 在为哪个类别中的概率最大，则属于哪个类别

定义误差函数：

$Classification(分类) - 图9$ %3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf(x%5Ei)%7D%0A#card=math&code=Likelihood%28f%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%28x%5Ei%29%7D%0A)

其中 $Classification(分类) - 图10$ 为随机变量
$Classification(分类) - 图11$ #card=math&code=f%28x%29) 为 $Classification(分类) - 图12$ 的概率密度函数
实际上就是寻找使训练集分类正确可能性最大的分布

二、求解函数参数

假设问题服从高斯分布，则：

$Classification(分类) - 图13$ %3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=Likelihood%28%5Cmu%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D%28x%5Ei%29%7D%0A)

高斯分布：

$Classification(分类) - 图14$ %3D%5Cfrac%7B1%7D%7B(2%5Cpi)%5E%5Cfrac%7BD%7D%7B2%7D%7D%5Cfrac%7B1%7D%7B%7C%5CSigma%7C%5E%5Cfrac%7B1%7D%7B2%7D%7De%5E%7B-%5Cfrac%7B1%7D%7B2%7D(x-%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x-%5Cmu)%7D%0A#card=math&code=f_%7B%5Cmu%2C%5CSigma%7D%28x%29%3D%5Cfrac%7B1%7D%7B%282%5Cpi%29%5E%5Cfrac%7BD%7D%7B2%7D%7D%5Cfrac%7B1%7D%7B%7C%5CSigma%7C%5E%5Cfrac%7B1%7D%7B2%7D%7De%5E%7B-%5Cfrac%7B1%7D%7B2%7D%28x-%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x-%5Cmu%29%7D%0A)

$Classification(分类) - 图15$ 为随机变量的向量
$Classification(分类) - 图16$ 为均值向量
$Classification(分类) - 图17$ 为协方差矩阵

注：多元正态分布的概率密度是由协方差矩阵的特征向量控制旋转(rotation)，特征值控制尺度(scale)，除了协方差矩阵，均值向量会控制概率密度的位置
图片取自知乎

最大化概率求解

$Classification(分类) - 图19$ %3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=MAX%5C%20Likelihood%28%5Cmu%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D%28x%5Ei%29%7D%0A)

设让Likelihood最大的 $Classification(分类) - 图20$ 和 $Classification(分类) - 图21$ 为 $Classification(分类) - 图22$ 和 $Classification(分类) - 图23$ ，则：

$Classification(分类) - 图24$

$Classification(分类) - 图25$ (x%5Ei-%5Cmu%5E*)%5ET%0A#card=math&code=%5CSigma%5E%2A%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bi%3D1%7D%5En%28x%5Ei-%5Cmu%5E%2A%29%28x%5Ei-%5Cmu%5E%2A%29%5ET%0A)

三、线性分类判别与二次分类判别

线性分类判别（LDA）：一定程度上简化模型，抑制overfitting

Classification(分类) - 图26

$Classification(分类) - 图27$ %7D%7BP(C_2%7Cx)%7D%3Dln%5Cfrac%7BP(x%7CC_1)P(C_1)%7D%7BP(x%7CC_2)P(C_2)%7D%0A#card=math&code=z%3Dln%5Cfrac%7BP%28C_1%7Cx%29%7D%7BP%28C_2%7Cx%29%7D%3Dln%5Cfrac%7BP%28x%7CC_1%29P%28C_1%29%7D%7BP%28x%7CC_2%29P%28C_2%29%7D%0A)

当两个分布具有相同的方差值时,在多维高斯分布中显示为两者的协方差矩阵相同，这时：

$Classification(分类) - 图28$ %7D%7BP(C2%7Cx)%7D%26%3Dln%5Cfrac%7BP(x%7CC_1)P(C_1)%7D%7BP(x%7CC_2)P(C_2)%7D%20%5C%5C%20%0A%26%3Dln%5Cfrac%7Bf%7B%5Cmu1%2C%5CSigma%7D(x)%7D%7Bf%7B%5Cmu2%2C%5CSigma%7D(x)%7D%2Bln(%5Cfrac%7BP(C_1)%7D%7BP(C_2)%7D)%5C%5C%0A%26%3Dx%5ET%5CSigma%5E%7B-1%7D(%5Cmu_1-%5Cmu_2)-%5Cfrac%7B1%7D%7B2%7D(%5Cmu_1%2B%5Cmu_2)%5CSigma%5E%7B-1%7D(%5Cmu_1-%5Cmu_2)%2Bln(%5Cfrac%7BP(C_1)%7D%7BP(C_2)%7D)%0A%5Cend%7Baligned%7D#card=math&code=%5Cbegin%7Baligned%7D%0Az%3Dln%5Cfrac%7BP%28C_1%7Cx%29%7D%7BP%28C_2%7Cx%29%7D%26%3Dln%5Cfrac%7BP%28x%7CC_1%29P%28C_1%29%7D%7BP%28x%7CC_2%29P%28C_2%29%7D%20%5C%5C%20%0A%26%3Dln%5Cfrac%7Bf%7B%5Cmu1%2C%5CSigma%7D%28x%29%7D%7Bf%7B%5Cmu_2%2C%5CSigma%7D%28x%29%7D%2Bln%28%5Cfrac%7BP%28C_1%29%7D%7BP%28C_2%29%7D%29%5C%5C%0A%26%3Dx%5ET%5CSigma%5E%7B-1%7D%28%5Cmu_1-%5Cmu_2%29-%5Cfrac%7B1%7D%7B2%7D%28%5Cmu_1%2B%5Cmu_2%29%5CSigma%5E%7B-1%7D%28%5Cmu_1-%5Cmu_2%29%2Bln%28%5Cfrac%7BP%28C_1%29%7D%7BP%28C_2%29%7D%29%0A%5Cend%7Baligned%7D)

可以发现上式是线性的，也就是 $Classification(分类) - 图29$ %3DP(C_2%7Cx)#card=math&code=P%28C_1%7Cx%29%3DP%28C_2%7Cx%29) 时边界条件是线性的，即划分两个类别区域的分界线为直线

二次分类判别（QDA）:

此时两个分布方差值不同，这时有分类判别函数：

Classification(分类) - 图30

可以发现上式是非线性的，也就是 $Classification(分类) - 图31$ %3DP(C_2%7Cx)#card=math&code=P%28C_1%7Cx%29%3DP%28C_2%7Cx%29) 时边界条件是二次型，即划分两个类别区域的分界线为曲线

通过 LDA 简化上述模型，即令两个分布的协方差矩阵相等

此时误差函数为

$Classification(分类) - 图32$ %3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu1%2C%5CSigma%7D(x%5Ei)%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf%7B%5Cmu_2%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=Likelihood%28%5Cmu_1%2C%5Cmu_2%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu_1%2C%5CSigma%7D%28x%5Ei%29%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf_%7B%5Cmu_2%2C%5CSigma%7D%28x%5Ei%29%7D%0A)

最大化概率求解

$Classification(分类) - 图33$ %3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu1%2C%5CSigma%7D(x%5Ei)%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf%7B%5Cmu_2%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=MAX%5C%20Likelihood%28%5Cmu_1%2C%5Cmu_2%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu_1%2C%5CSigma%7D%28x%5Ei%29%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf_%7B%5Cmu_2%2C%5CSigma%7D%28x%5Ei%29%7D%0A)

设让Likelihood最大的 $Classification(分类) - 图34$ 和 $Classification(分类) - 图35$ 为 $Classification(分类) - 图36$ ， $Classification(分类) - 图37$ 和 $Classification(分类) - 图38$ ，则：

$Classification(分类) - 图39$

$Classification(分类) - 图40$

$Classification(分类) - 图41$ (x%5Ei-%5Cmu1%5E*)%5ET%0A#card=math&code=%5CSigma1%3D%5Cfrac%7B1%7D%7Bk%7D%5Csum%7Bi%3D1%7D%5Ej%28x%5Ei-%5Cmu_1%5E%2A%29%28x%5Ei-%5Cmu1%5E%2A%29%5ET%0A)

$Classification(分类) - 图42$ (x%5Ei-%5Cmu2%5E*)%5ET%0A#card=math&code=%5CSigma2%3D%5Cfrac%7B1%7D%7Bn-k%7D%5Csum%7Bi%3Dk%2B1%7D%5En%28x%5Ei-%5Cmu_2%5E%2A%29%28x%5Ei-%5Cmu2%5E%2A%29%5ET%0A)

$Classification(分类) - 图43$

四、其他

当多维正太分布的特征的每一个分量相互独立时，可以看做多个一维的高斯分布的组合，采用朴素贝叶斯分类方法