简介
- 预设定相应的函数模型-Model
- 设定损失函数 -Loss function
- 求解最优的函数模型 -Find the best function
- 通过函数对未知数据的类别进行预测
- 与Regression不同的是,Classification会对函数的输出进行离散化处理,以满足其特殊的要求
- 该课程中的方法针对的是对未知对象在已知类别当中进行分类
- 课程中先提出了一种基于概率分布的解决方法
一、函数模型以及误差函数的定义
- 以最简单的二元分类问题为例,设定有两个类别,分别为
,
,我们需要进行分类的随机变量是
,则
属于
类的概率为:
%3D%5Cfrac%7BP(x%7CC_1)P(C_1)%7D%7BP(x%7CC_1)P(C_1)%2BP(x%7CC_2)P(C_2)%7D%0A#card=math&code=P%28C_1%7Cx%29%3D%5Cfrac%7BP%28x%7CC_1%29P%28C_1%29%7D%7BP%28x%7CC_1%29P%28C_1%29%2BP%28x%7CC_2%29P%28C_2%29%7D%0A)
%3D%5Cbegin%7Bcases%7D%20C_2%5Cquad%20P(C_1%7Cx)%3C0.5%5C%5C%20C_1%5Cquad%20P(C_1%7Cx)%3E0.5%20%20%5Cend%7Bcases%7D%0A#card=math&code=f%28x%29%3D%5Cbegin%7Bcases%7D%20C_2%5Cquad%20P%28C_1%7Cx%29%3C0.5%5C%5C%20C_1%5Cquad%20P%28C_1%7Cx%29%3E0.5%20%20%5Cend%7Bcases%7D%0A)
在为哪个类别中的概率最大,则属于哪个类别
- 定义误差函数:
%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf(x%5Ei)%7D%0A#card=math&code=Likelihood%28f%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%28x%5Ei%29%7D%0A)
- 其中
为随机变量
#card=math&code=f%28x%29) 为
的概率密度函数
- 实际上就是寻找使训练集分类正确可能性最大的分布
二、求解函数参数
- 假设问题服从高斯分布,则:
%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=Likelihood%28%5Cmu%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D%28x%5Ei%29%7D%0A)
- 高斯分布:
%3D%5Cfrac%7B1%7D%7B(2%5Cpi)%5E%5Cfrac%7BD%7D%7B2%7D%7D%5Cfrac%7B1%7D%7B%7C%5CSigma%7C%5E%5Cfrac%7B1%7D%7B2%7D%7De%5E%7B-%5Cfrac%7B1%7D%7B2%7D(x-%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x-%5Cmu)%7D%0A#card=math&code=f_%7B%5Cmu%2C%5CSigma%7D%28x%29%3D%5Cfrac%7B1%7D%7B%282%5Cpi%29%5E%5Cfrac%7BD%7D%7B2%7D%7D%5Cfrac%7B1%7D%7B%7C%5CSigma%7C%5E%5Cfrac%7B1%7D%7B2%7D%7De%5E%7B-%5Cfrac%7B1%7D%7B2%7D%28x-%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x-%5Cmu%29%7D%0A)
为随机变量的向量
为均值向量
为协方差矩阵

注:多元正态分布的概率密度是由协方差矩阵的特征向量控制旋转(rotation),特征值控制尺度(scale),除了协方差矩阵,均值向量会控制概率密度的位置
图片取自知乎
- 最大化概率求解
%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=MAX%5C%20Likelihood%28%5Cmu%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D%28x%5Ei%29%7D%0A)
- 设让Likelihood最大的
和
为
和
,则:
(x%5Ei-%5Cmu%5E*)%5ET%0A#card=math&code=%5CSigma%5E%2A%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bi%3D1%7D%5En%28x%5Ei-%5Cmu%5E%2A%29%28x%5Ei-%5Cmu%5E%2A%29%5ET%0A)
三、线性分类判别与二次分类判别
- 线性分类判别(LDA):一定程度上简化模型,抑制overfitting
%7D%7BP(C_2%7Cx)%7D%3Dln%5Cfrac%7BP(x%7CC_1)P(C_1)%7D%7BP(x%7CC_2)P(C_2)%7D%0A#card=math&code=z%3Dln%5Cfrac%7BP%28C_1%7Cx%29%7D%7BP%28C_2%7Cx%29%7D%3Dln%5Cfrac%7BP%28x%7CC_1%29P%28C_1%29%7D%7BP%28x%7CC_2%29P%28C_2%29%7D%0A)
- 当两个分布具有相同的方差值时,在多维高斯分布中显示为两者的协方差矩阵相同,这时:
%7D%7BP(C2%7Cx)%7D%26%3Dln%5Cfrac%7BP(x%7CC_1)P(C_1)%7D%7BP(x%7CC_2)P(C_2)%7D%20%5C%5C%20%0A%26%3Dln%5Cfrac%7Bf%7B%5Cmu1%2C%5CSigma%7D(x)%7D%7Bf%7B%5Cmu2%2C%5CSigma%7D(x)%7D%2Bln(%5Cfrac%7BP(C_1)%7D%7BP(C_2)%7D)%5C%5C%0A%26%3Dx%5ET%5CSigma%5E%7B-1%7D(%5Cmu_1-%5Cmu_2)-%5Cfrac%7B1%7D%7B2%7D(%5Cmu_1%2B%5Cmu_2)%5CSigma%5E%7B-1%7D(%5Cmu_1-%5Cmu_2)%2Bln(%5Cfrac%7BP(C_1)%7D%7BP(C_2)%7D)%0A%5Cend%7Baligned%7D#card=math&code=%5Cbegin%7Baligned%7D%0Az%3Dln%5Cfrac%7BP%28C_1%7Cx%29%7D%7BP%28C_2%7Cx%29%7D%26%3Dln%5Cfrac%7BP%28x%7CC_1%29P%28C_1%29%7D%7BP%28x%7CC_2%29P%28C_2%29%7D%20%5C%5C%20%0A%26%3Dln%5Cfrac%7Bf%7B%5Cmu1%2C%5CSigma%7D%28x%29%7D%7Bf%7B%5Cmu_2%2C%5CSigma%7D%28x%29%7D%2Bln%28%5Cfrac%7BP%28C_1%29%7D%7BP%28C_2%29%7D%29%5C%5C%0A%26%3Dx%5ET%5CSigma%5E%7B-1%7D%28%5Cmu_1-%5Cmu_2%29-%5Cfrac%7B1%7D%7B2%7D%28%5Cmu_1%2B%5Cmu_2%29%5CSigma%5E%7B-1%7D%28%5Cmu_1-%5Cmu_2%29%2Bln%28%5Cfrac%7BP%28C_1%29%7D%7BP%28C_2%29%7D%29%0A%5Cend%7Baligned%7D)
- 可以发现上式是线性的,也就是
%3DP(C_2%7Cx)#card=math&code=P%28C_1%7Cx%29%3DP%28C_2%7Cx%29) 时边界条件是线性的,即划分两个类别区域的分界线为直线
- 二次分类判别(QDA):
- 此时两个分布方差值不同,这时有分类判别函数:
- 可以发现上式是非线性的,也就是
%3DP(C_2%7Cx)#card=math&code=P%28C_1%7Cx%29%3DP%28C_2%7Cx%29) 时边界条件是二次型,即划分两个类别区域的分界线为曲线
- 通过 LDA 简化上述模型,即令两个分布的协方差矩阵相等
- 此时误差函数为
%3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu1%2C%5CSigma%7D(x%5Ei)%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf%7B%5Cmu_2%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=Likelihood%28%5Cmu_1%2C%5Cmu_2%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu_1%2C%5CSigma%7D%28x%5Ei%29%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf_%7B%5Cmu_2%2C%5CSigma%7D%28x%5Ei%29%7D%0A)
- 最大化概率求解
%3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu1%2C%5CSigma%7D(x%5Ei)%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf%7B%5Cmu_2%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=MAX%5C%20Likelihood%28%5Cmu_1%2C%5Cmu_2%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu_1%2C%5CSigma%7D%28x%5Ei%29%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf_%7B%5Cmu_2%2C%5CSigma%7D%28x%5Ei%29%7D%0A)
- 设让Likelihood最大的
和
为
,
和
,则:
(x%5Ei-%5Cmu1%5E*)%5ET%0A#card=math&code=%5CSigma1%3D%5Cfrac%7B1%7D%7Bk%7D%5Csum%7Bi%3D1%7D%5Ej%28x%5Ei-%5Cmu_1%5E%2A%29%28x%5Ei-%5Cmu1%5E%2A%29%5ET%0A)
(x%5Ei-%5Cmu2%5E*)%5ET%0A#card=math&code=%5CSigma2%3D%5Cfrac%7B1%7D%7Bn-k%7D%5Csum%7Bi%3Dk%2B1%7D%5En%28x%5Ei-%5Cmu_2%5E%2A%29%28x%5Ei-%5Cmu2%5E%2A%29%5ET%0A)
四、其他
- 当多维正太分布的特征的每一个分量相互独立时,可以看做多个一维的高斯分布的组合,采用朴素贝叶斯分类方法
