分类是一类常见的科研需求,例如在绘制相图时,我们经常需要将一组数据点分成两类以区分不同的相,分类器就是一种比较简单的机器学习模型。
分类器分为两种:

  1. 硬分类线性分类 - 图1,我们得到的结果时对数据的0-1分类,具体方法:
    1. 线性判别分析(Linear Discriminant Analysis,LDA)
    2. 感知机算法(Perceptron Learning Algorithm,PLA)
  2. 软分类线性分类 - 图2,我们得到的不是对数据分类的结果,而是数据可被分入一类的概率,主要方法分为:

    1. 概率生成式:高斯判别分析(Gaussian Discriminant Analysis,GDA),朴素贝叶斯分析
    2. 概率判别式:Logistic回归分析

      线性感知机

      思路:错误驱动
      模型:线性分类 - 图3
      线性分类 - 图4
      损失函数:线性分类 - 图5(若正确分类,则和应该是同号的)
      求偏导可得:线性分类 - 图6
      利用速度梯度算法(Gradient Descent)可以迭代求合适的线性分类 - 图7
      线性分类 - 图8,其中λ为优化速率。
      该算法是可收敛的(不证),而对于线性可分的体系,则可以使用口袋算法,所谓口袋算法就是在迭代过程中,将犯错最少的放入一个口袋,若下一个迭代值犯错更少则更新它,否则就放弃信的结果,当迭代次数足够多后返回口袋中的结果。

      Fisher分析

      模型概念

      记号:线性分类 - 图9
      将数据分为两类:线性分类 - 图10线性分类 - 图11
      线性分类 - 图12
      Fisher分析的主要思想为:类内小,类间大。我们需要将数据点投影到某个选定的直线上,并利用投影进行分类,从而这条直线应该满足:
  3. 投影分布尽量可分;

  4. 每个类内部点的投影分布长度应当尽量小(类内小);
  5. 不同类的投影分布区域应当有着尽量大的间隔(类间大),以方便分类;

123.jpg

模型求解

记原数据向量x沿着某个方向(ω)的投影为线性分类 - 图14
先利用协方差表示两组数据的类内分布:
线性分类 - 图15
线性分类 - 图16
线性分类 - 图17,其中S1为原数据组内协方差。同理:
线性分类 - 图18。于是我们把类内距离定义为线性分类 - 图19
再利用每个类的均值之间的距离平方表示类间距离:
线性分类 - 图20
线性分类 - 图21
一个要大,一个要小,因此损失函数定义为二者比值:
线性分类 - 图22
线性分类 - 图23
其中Sb是类间方差,是类内方差。
线性分类 - 图24
线性分类 - 图25,注意,线性分类 - 图26,而我们只关注投影方向,无所谓大小,因此:
线性分类 - 图27,这里注意:
线性分类 - 图28,所以线性分类 - 图29
线性分类 - 图30即所求方向,若是数量阵,则有线性分类 - 图31

Logistic回归

背景

Logistic回归是一种软分类方法,它返回的结果不是分类的结果,而是数据处于某一类的概率值。
思路:计算线性分类 - 图32,由贝叶斯定理:
线性分类 - 图33
线性分类 - 图34 线性分类 - 图35,形如此的非线性激活函数被称为Sigmoid函数。
1.png
Sigmoid函数有以下特点:

  1. 特殊的微分性质:线性分类 - 图37
  2. 该函数的梯度值能够控制参数的调整速率,详见林轩田讲义图片(右三);

2.png

模型求解

在Logistic回归中,我们的模型假设为线性分类 - 图39,通过求解ω,去计算概率值。在二分类模型中,我们使用Bernoulli分布描述它们的概率:
线性分类 - 图40
线性分类 - 图41
对于N次独立全同观测:线性分类 - 图42,MLE估计为:
线性分类 - 图43
根据Sigmoid函数的微分性质:线性分类 - 图44
线性分类 - 图45。因此:
线性分类 - 图46
线性分类 - 图47
可以采用梯度下降算法,对ω进行优化:
线性分类 - 图48

高斯判别分析(Gaussian Discriminant Analysis, GDA)

背景

记号:线性分类 - 图49,
线性分类 - 图50
Logistic回归分析是计算数据被分为某一类的概率,而GDA模型我们关注的是线性分类 - 图51线性分类 - 图52哪个值更大。根据贝叶斯定理:
线性分类 - 图53,其中线性分类 - 图54是对分类值的后验,线性分类 - 图55是分类模型的先验分布,线性分类 - 图56是数据的似然,在GDA中我们有以下假设:

  1. 先验分布为Bernoulli分布:线性分类 - 图57;
  2. 两种分类内的似然为正态分布:

线性分类 - 图58
线性分类 - 图59;

数学补充

引理1:x是一个n维列向量,则二次型
线性分类 - 图60
引理2:线性分类 - 图61
线性分类 - 图62
引理3:线性分类 - 图63
线性分类 - 图64
引理4:转置矩阵的微分等于微分矩阵的转置即
线性分类 - 图65
线性分类 - 图66
,从而有个自然的推论:线性分类 - 图67
引理5:线性分类 - 图68,其中根据行列式按行展开定理
线性分类 - 图69,因此线性分类 - 图70
线性分类 - 图71

模型求解

线性分类 - 图72
线性分类 - 图73
线性分类 - 图74
求解ϕ
线性分类 - 图75
线性分类 - 图76
求解μ_1和μ2:
![](https://cdn.nlark.com/yuque/__latex/c1a6c0675f330a1394847ae0054656e8.svg#card=math&code=%5Chat%7B%5Cmu%7D_1%5C%2C%5C%2C%3D%5C%2C%5C%2C%5Cunderset%7B%5Cmu%20_1%7D%7Barg%5Cmax%7D%5Csum
%7Bi%5C%2C%5C%2C%3D%5C%2C%5C%2C1%7D%5EN%7Byi%5Clog%20%5Cmathbb%7BN%7D%20%5Cleft%28%20%5Cmu%20_1%2C%20%5CvarSigma%20%5Cright%29%7D%0A&id=YHYMj)![](https://cdn.nlark.com/yuque/__latex/8e1decab657530474e3ebc9b0f15ac7c.svg#card=math&code=%3D%5C%2C%5C%2C%5Cunderset%7B%5Cmu%20_1%7D%7Barg%5Cmax%7D%5Csum%7Bi%5C%2C%5C%2C%3D%5C%2C%5C%2C1%7D%5EN%7Byi%5Cleft%28%20x_i-%5Cmu%20_1%20%5Cright%29%20%5ET%5CvarSigma%20%5E%7B-1%7D%5Cleft%28%20x_i-%5Cmu%20_1%20%5Cright%29%7D%0A&id=LkWq0),对上式展开并求导得:
![](https://cdn.nlark.com/yuque/__latex/5432afdaaef6092502a11f551b79841e.svg#card=math&code=%5Csum
%7Bi%5C%2C%5C%2C%3D%5C%2C%5C%2C1%7D%5EN%7B%5Cleft%28%20-2yi%5CvarSigma%20%5E%7B-1%7Dx_i%2B2y_i%5CvarSigma%20%5E%7B-1%7D%5Cmu%20_1%20%5Cright%29%7D%5C%2C%5C%2C%3D%5C%2C%5C%2C0%20&id=Xmus5)
![](https://cdn.nlark.com/yuque/__latex/3c6954191bb7a7fe0fb8cd22bf790557.svg#card=math&code=%5CRightarrow%20%5C%2C%5C%2C%7B%5Ccolor%7Bred%7D%20%5Cboldsymbol%7B%5Cmu%20%7D
%7B%5Cboldsymbol%7B1%7D%7D%5C%2C%5C%2C%3D%5C%2C%5C%2C%5Cfrac%7B%5Csum%7B%5Cboldsymbol%7Bi%7D%5C%2C%5C%2C%3D%5C%2C%5C%2C%5Cboldsymbol%7B1%7D%7D%5E%7B%5Cboldsymbol%7BN%7D%7D%7B%5Cboldsymbol%7By%7D%7B%5Cboldsymbol%7Bi%7D%7D%5Cboldsymbol%7Bx%7D%7B%5Cboldsymbol%7Bi%7D%7D%7D%7D%7B%5Csum%7B%5Cboldsymbol%7Bi%7D%5C%2C%5C%2C%3D%5C%2C%5C%2C%5Cboldsymbol%7B1%7D%7D%5E%7B%5Cboldsymbol%7BN%7D%7D%7B%5Cboldsymbol%7By%7D%7B%5Cboldsymbol%7Bi%7D%7D%7D%7D%5C%2C%5C%2C%3D%5C%2C%5C%2C%5Cfrac%7B%5Csum%7B%5Cboldsymbol%7Bi%7D%5C%2C%5C%2C%3D%5C%2C%5C%2C%5Cboldsymbol%7B1%7D%7D%5E%7B%5Cboldsymbol%7BN%7D%7D%7B%5Cboldsymbol%7By%7D%7B%5Cboldsymbol%7Bi%7D%7D%5Cboldsymbol%7Bx%7D%7B%5Cboldsymbol%7Bi%7D%7D%7D%7D%7B%5Cboldsymbol%7BN%7D%7B%5Cboldsymbol%7B1%7D%7D%7D%7D%0A&id=oR7aE)
同理:![](https://cdn.nlark.com/yuque/__latex/3180333c716da4f72256d463874e7faa.svg#card=math&code=%7B%5Ccolor%7Bred%7D%20%5Cboldsymbol%7B%5Cmu%20%7D
%7B%5Cboldsymbol%7B2%7D%7D%5C%2C%5C%2C%3D%5C%2C%5C%2C%5Cfrac%7B%5Csum%7B%5Cboldsymbol%7Bi%7D%5C%2C%5C%2C%3D%5C%2C%5C%2C%5Cboldsymbol%7B1%7D%7D%5E%7B%5Cboldsymbol%7BN%7D%7D%7B%5Cleft%28%201-%5Cboldsymbol%7By%7D%7B%5Cboldsymbol%7Bi%7D%7D%20%5Cright%29%20%5Cboldsymbol%7Bx%7D%7B%5Cboldsymbol%7Bi%7D%7D%7D%7D%7B%5Cboldsymbol%7BN%7D_2%7D%7D&id=jgegc)。
求解

首先有![](https://cdn.nlark.com/yuque/__latex/a31b6cc840bc7a6a499b2c668c83bca7.svg#card=math&code=%5Csum
%7Bi%5C%2C%5C%2C%3D%5C%2C%5C%2C1%7D%5EN%7B%5Clog%20%5Cmathbb%7BN%7D%20%5Cleft%28%20%5Cmu%20%2C%20%5CvarSigma%20%5Cright%29%7D%5C%2C%5C%2C%3D%5C%2C%5C%2C%5Csum%7Bi%5C%2C%5C%2C%3D%5C%2C%5C%2C1%7D%5EN%7B%5Clog%20%5Cleft%28%20%5Cfrac%7B1%7D%7B%5Cleft%28%202%5Cpi%20%5Cright%29%20%5E%7B%5Cfrac%7Bp%7D%7B2%7D%7D%5Cleft%7C%20%5CvarSigma%20%5Cright%7C%5E%7B%5Cfrac%7B1%7D%7B2%7D%7D%7D%20%5Cright%29%7D&id=HuYmN)
![](https://cdn.nlark.com/yuque/__latex/1d0cf7d93ae3a7ae3af9f025f224bcfe.svg#card=math&code=-%5Csum
%7Bi%5C%2C%5C%2C%3D%5C%2C%5C%2C1%7D%5EN%7B%5Cleft%28%20%5Cfrac%7B1%7D%7B2%7D%5Cleft%28%20xi-%5Cmu%20_1%20%5Cright%29%20%5ET%5CvarSigma%20%5E%7B-1%7D%5Cleft%28%20x_i-%5Cmu%20_1%20%5Cright%29%20%5Cright%29%7D%0A&id=EoNd2)(注意到第二项括号内是二次型,可以利用迹来计算其值)
![](https://cdn.nlark.com/yuque/__latex/52b7574623e569f0dc41dde607b8af42.svg#card=math&code=%5Csum
%7Bi%5C%2C%5C%2C%3D%5C%2C%5C%2C1%7D%5EN%7B%5Clog%20%5Cmathbb%7BN%7D%20%5Cleft%28%20%5Cmu%20%2C%20%5CvarSigma%20%5Cright%29%7D%5C%2C%5C%2C&id=zgSk0)
线性分类 - 图77
线性分类 - 图78
线性分类 - 图79S是样本协方差矩阵。
因此,线性分类 - 图80
线性分类 - 图81
线性分类 - 图82
线性分类 - 图83,其中S1S2是类内样本方差。
代入所有参数可得:
线性分类 - 图84
线性分类 - 图85
线性分类 - 图86

朴素贝叶斯

朴素贝叶斯是最简单的有向概率图模型,其计算方法基于条件独立性假设:
线性分类 - 图87,由贝叶斯定理:
线性分类 - 图88。对于单维度的条件概率有如下假设:

  1. xi是连续的:线性分类 - 图89
  2. xi是离散的:采用类别分布,线性分类 - 图90
  3. 先验分布为Bernoulli分布:线性分类 - 图91

利用MLE可以得到上述参数值。