简介

  • 预设定相应的函数模型Model
  • 设定损失函数 -Loss function
  • 求解最优的函数模型 -Find the best function
  • 通过函数对未知数据的类别进行预测
  • 与Regression不同的是,Classification会对函数的输出进行离散化处理,以满足其特殊的要求
  • 该课程中的方法针对的是对未知对象在已知类别当中进行分类
  • 课程中先提出了一种基于概率分布的解决方法

一、函数模型以及误差函数的定义

  1. 以最简单的二元分类问题为例,设定有两个类别,分别为 Classification(分类) - 图1Classification(分类) - 图2,我们需要进行分类的随机变量是 Classification(分类) - 图3,则 Classification(分类) - 图4 属于 Classification(分类) - 图5 类的概率为:

Classification(分类) - 图6%3D%5Cfrac%7BP(x%7CC_1)P(C_1)%7D%7BP(x%7CC_1)P(C_1)%2BP(x%7CC_2)P(C_2)%7D%0A#card=math&code=P%28C_1%7Cx%29%3D%5Cfrac%7BP%28x%7CC_1%29P%28C_1%29%7D%7BP%28x%7CC_1%29P%28C_1%29%2BP%28x%7CC_2%29P%28C_2%29%7D%0A)

Classification(分类) - 图7%3D%5Cbegin%7Bcases%7D%20C_2%5Cquad%20P(C_1%7Cx)%3C0.5%5C%5C%20C_1%5Cquad%20P(C_1%7Cx)%3E0.5%20%20%5Cend%7Bcases%7D%0A#card=math&code=f%28x%29%3D%5Cbegin%7Bcases%7D%20C_2%5Cquad%20P%28C_1%7Cx%29%3C0.5%5C%5C%20C_1%5Cquad%20P%28C_1%7Cx%29%3E0.5%20%20%5Cend%7Bcases%7D%0A)

  • Classification(分类) - 图8 在为哪个类别中的概率最大,则属于哪个类别
  1. 定义误差函数:

Classification(分类) - 图9%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf(x%5Ei)%7D%0A#card=math&code=Likelihood%28f%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%28x%5Ei%29%7D%0A)

  • 其中 Classification(分类) - 图10 为随机变量
  • Classification(分类) - 图11#card=math&code=f%28x%29) 为 Classification(分类) - 图12 的概率密度函数
  • 实际上就是寻找使训练集分类正确可能性最大的分布

二、求解函数参数

  1. 假设问题服从高斯分布,则:

Classification(分类) - 图13%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=Likelihood%28%5Cmu%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D%28x%5Ei%29%7D%0A)

  1. 高斯分布:

Classification(分类) - 图14%3D%5Cfrac%7B1%7D%7B(2%5Cpi)%5E%5Cfrac%7BD%7D%7B2%7D%7D%5Cfrac%7B1%7D%7B%7C%5CSigma%7C%5E%5Cfrac%7B1%7D%7B2%7D%7De%5E%7B-%5Cfrac%7B1%7D%7B2%7D(x-%5Cmu)%5ET%5CSigma%5E%7B-1%7D(x-%5Cmu)%7D%0A#card=math&code=f_%7B%5Cmu%2C%5CSigma%7D%28x%29%3D%5Cfrac%7B1%7D%7B%282%5Cpi%29%5E%5Cfrac%7BD%7D%7B2%7D%7D%5Cfrac%7B1%7D%7B%7C%5CSigma%7C%5E%5Cfrac%7B1%7D%7B2%7D%7De%5E%7B-%5Cfrac%7B1%7D%7B2%7D%28x-%5Cmu%29%5ET%5CSigma%5E%7B-1%7D%28x-%5Cmu%29%7D%0A)

  • Classification(分类) - 图15 为随机变量的向量
  • Classification(分类) - 图16 为均值向量
  • Classification(分类) - 图17 为协方差矩阵

1.png

注:多元正态分布的概率密度是由协方差矩阵的特征向量控制旋转(rotation),特征值控制尺度(scale),除了协方差矩阵,均值向量会控制概率密度的位置
图片取自知乎

  1. 最大化概率求解

Classification(分类) - 图19%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=MAX%5C%20Likelihood%28%5Cmu%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bn%7D%7Bf%7B%5Cmu%2C%5CSigma%7D%28x%5Ei%29%7D%0A)

  • 设让Likelihood最大的 Classification(分类) - 图20Classification(分类) - 图21Classification(分类) - 图22Classification(分类) - 图23 ,则:

Classification(分类) - 图24

Classification(分类) - 图25(x%5Ei-%5Cmu%5E*)%5ET%0A#card=math&code=%5CSigma%5E%2A%3D%5Cfrac%7B1%7D%7Bn%7D%5Csum_%7Bi%3D1%7D%5En%28x%5Ei-%5Cmu%5E%2A%29%28x%5Ei-%5Cmu%5E%2A%29%5ET%0A)

三、线性分类判别与二次分类判别

  1. 线性分类判别(LDA):一定程度上简化模型,抑制overfitting

Classification(分类) - 图26

Classification(分类) - 图27%7D%7BP(C_2%7Cx)%7D%3Dln%5Cfrac%7BP(x%7CC_1)P(C_1)%7D%7BP(x%7CC_2)P(C_2)%7D%0A#card=math&code=z%3Dln%5Cfrac%7BP%28C_1%7Cx%29%7D%7BP%28C_2%7Cx%29%7D%3Dln%5Cfrac%7BP%28x%7CC_1%29P%28C_1%29%7D%7BP%28x%7CC_2%29P%28C_2%29%7D%0A)

  • 当两个分布具有相同的方差值时,在多维高斯分布中显示为两者的协方差矩阵相同,这时:

Classification(分类) - 图28%7D%7BP(C2%7Cx)%7D%26%3Dln%5Cfrac%7BP(x%7CC_1)P(C_1)%7D%7BP(x%7CC_2)P(C_2)%7D%20%5C%5C%20%0A%26%3Dln%5Cfrac%7Bf%7B%5Cmu1%2C%5CSigma%7D(x)%7D%7Bf%7B%5Cmu2%2C%5CSigma%7D(x)%7D%2Bln(%5Cfrac%7BP(C_1)%7D%7BP(C_2)%7D)%5C%5C%0A%26%3Dx%5ET%5CSigma%5E%7B-1%7D(%5Cmu_1-%5Cmu_2)-%5Cfrac%7B1%7D%7B2%7D(%5Cmu_1%2B%5Cmu_2)%5CSigma%5E%7B-1%7D(%5Cmu_1-%5Cmu_2)%2Bln(%5Cfrac%7BP(C_1)%7D%7BP(C_2)%7D)%0A%5Cend%7Baligned%7D#card=math&code=%5Cbegin%7Baligned%7D%0Az%3Dln%5Cfrac%7BP%28C_1%7Cx%29%7D%7BP%28C_2%7Cx%29%7D%26%3Dln%5Cfrac%7BP%28x%7CC_1%29P%28C_1%29%7D%7BP%28x%7CC_2%29P%28C_2%29%7D%20%5C%5C%20%0A%26%3Dln%5Cfrac%7Bf%7B%5Cmu1%2C%5CSigma%7D%28x%29%7D%7Bf%7B%5Cmu_2%2C%5CSigma%7D%28x%29%7D%2Bln%28%5Cfrac%7BP%28C_1%29%7D%7BP%28C_2%29%7D%29%5C%5C%0A%26%3Dx%5ET%5CSigma%5E%7B-1%7D%28%5Cmu_1-%5Cmu_2%29-%5Cfrac%7B1%7D%7B2%7D%28%5Cmu_1%2B%5Cmu_2%29%5CSigma%5E%7B-1%7D%28%5Cmu_1-%5Cmu_2%29%2Bln%28%5Cfrac%7BP%28C_1%29%7D%7BP%28C_2%29%7D%29%0A%5Cend%7Baligned%7D)

  • 可以发现上式是线性的,也就是 Classification(分类) - 图29%3DP(C_2%7Cx)#card=math&code=P%28C_1%7Cx%29%3DP%28C_2%7Cx%29) 时边界条件是线性的,即划分两个类别区域的分界线为直线
  1. 二次分类判别(QDA):
  • 此时两个分布方差值不同,这时有分类判别函数:

Classification(分类) - 图30

  • 可以发现上式是非线性的,也就是 Classification(分类) - 图31%3DP(C_2%7Cx)#card=math&code=P%28C_1%7Cx%29%3DP%28C_2%7Cx%29) 时边界条件是二次型,即划分两个类别区域的分界线为曲线
  1. 通过 LDA 简化上述模型,即令两个分布的协方差矩阵相等
  • 此时误差函数为

Classification(分类) - 图32%3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu1%2C%5CSigma%7D(x%5Ei)%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf%7B%5Cmu_2%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=Likelihood%28%5Cmu_1%2C%5Cmu_2%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu_1%2C%5CSigma%7D%28x%5Ei%29%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf_%7B%5Cmu_2%2C%5CSigma%7D%28x%5Ei%29%7D%0A)

  • 最大化概率求解

Classification(分类) - 图33%3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu1%2C%5CSigma%7D(x%5Ei)%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf%7B%5Cmu_2%2C%5CSigma%7D(x%5Ei)%7D%0A#card=math&code=MAX%5C%20Likelihood%28%5Cmu_1%2C%5Cmu_2%2C%5CSigma%29%3D%5Csum%7Bi%3D1%7D%5E%7Bk%7D%7Bf%7B%5Cmu_1%2C%5CSigma%7D%28x%5Ei%29%7D%2B%5Csum%7Bi%3Dk%2B1%7D%5E%7Bn%7D%7Bf_%7B%5Cmu_2%2C%5CSigma%7D%28x%5Ei%29%7D%0A)

  • 设让Likelihood最大的 Classification(分类) - 图34Classification(分类) - 图35Classification(分类) - 图36Classification(分类) - 图37Classification(分类) - 图38 ,则:

Classification(分类) - 图39

Classification(分类) - 图40

Classification(分类) - 图41(x%5Ei-%5Cmu1%5E*)%5ET%0A#card=math&code=%5CSigma1%3D%5Cfrac%7B1%7D%7Bk%7D%5Csum%7Bi%3D1%7D%5Ej%28x%5Ei-%5Cmu_1%5E%2A%29%28x%5Ei-%5Cmu1%5E%2A%29%5ET%0A)

Classification(分类) - 图42(x%5Ei-%5Cmu2%5E*)%5ET%0A#card=math&code=%5CSigma2%3D%5Cfrac%7B1%7D%7Bn-k%7D%5Csum%7Bi%3Dk%2B1%7D%5En%28x%5Ei-%5Cmu_2%5E%2A%29%28x%5Ei-%5Cmu2%5E%2A%29%5ET%0A)

Classification(分类) - 图43

四、其他

  1. 当多维正太分布的特征的每一个分量相互独立时,可以看做多个一维的高斯分布的组合,采用朴素贝叶斯分类方法