1背景

观察机器学习有两个视角:频率派与贝叶斯派。频率派最终发展成了统计机器学习,贝叶斯派最终发展成了概率图模型。
线性分类 - 图1
线性回归线性分类 - 图2在统计机器学习占据基础地位,打破其特点从而发展出了各种算法,构成了统计机器学习的框架。
线性回归的特点
线性分类 - 图3
线性回归:线性分类 - 图4

  • 第一个特点是线性,包括属性线性,系数线性和全局线性。即线性分类 - 图5相对于线性分类 - 图6是线性的,线性分类 - 图7相对于系数线性分类 - 图8是线性的,线性分类 - 图9相对于线性分类 - 图10是线性的。

打破对线性分类 - 图11的线性,如多项式回归,包含线性分类 - 图12的多项式
打破对系数线性分类 - 图13的线性,如神经网络,感知机。随着线性分类 - 图14的不同,系数也会不同
打破对线性分类 - 图15的线性,如线性分类 - 图16回归,激活函数线性分类 - 图17是非线性的

  • 第二个特点是全局性,即特征空间是一个完整的。

打破这种全局性,如线性样条回归是在不同的空间内进行回归
决策树是对特征空间进行“纵横切割”

  • 第三个特点是数据未加工,打破这个特点,如降维算法,线性分类 - 图18,流形

从线性回归到线性分类
可以从激活函数和降维两个层面理解从线性回归线性分类。

  • 激活函数

线性分类 - 图19线性分类 - 图20称为激活函数线性分类 - 图21线性分类 - 图22在统计学中称为线性分类 - 图23

  • 降维

函数线性分类 - 图24线性分类 - 图25线性分类 - 图26维映射到1维
线性分类的分类
线性分类大致可分为硬分类和软分类
线性分类 - 图27

2感知机(Perceptron)**

样本集:线性分类 - 图28,错误分类集合:线性分类 - 图29,假设:样本线性可分。
模型:
线性分类 - 图30
**线性分类 - 图31
思想:错误驱动
对于线性分类 - 图32,对于正确分类的样本有:
线性分类 - 图33
策略:
因此,对于损失函数,一个最简单的想法是
线性分类 - 图34
但上式存在不连续,不可微等弱点,对于计算很不利,因此提出了下式:
线性分类 - 图35
损失函数对系数的偏导为:线性分类 - 图36
优化算法:SGD,随机梯度下降
线性分类 - 图37
注意对于感知机有一个前提假设,样本集可线性可分,如果不符合该假设,有一个变体线性分类 - 图38
Percaption.png

3线性判别分析(fisher)

模型定义
样本数据线性分类 - 图40
线性分类 - 图41
思想:类内小,类间大
出发点:
借助降维地观点,希望找到一个投影方向,使得高维样本投影到某个一维方向上,使得不同的类在该方向上的投影相互分离,能够在该方向上找到一个阈值线性分类 - 图42根据该阈值能够将类识别出来。
投影.png
如图,很明显投影方向线性分类 - 图44明显比线性分类 - 图45要好。
很自然我们希望:类内小,类间大。这与计算机中的思想是一致的,松耦合,高内聚
超平面在哪?
假如我们已经找到了这样一个投影方向,那么我们要找的超平面在哪呢?
fisher.png
超平面与投影方向垂直,超平面为线性分类 - 图47

向量垂直:

  • 对于向量线性分类 - 图48二者点乘可以写成代数中的向量相乘线性分类 - 图49
  • 线性分类 - 图50

假设线性分类 - 图51上两个点线性分类 - 图52为超平面向量,与线性分类 - 图53垂直,则线性分类 - 图54,因此超平面为线性分类 - 图55

投影如何表示?
假设投影方向的二范数为1,即:线性分类 - 图56
两个向量的点积:线性分类 - 图57
线性分类 - 图58线性分类 - 图59上的投影为线性分类 - 图60
投影
线性分类 - 图61表示线性分类 - 图62线性分类 - 图63上的投影,线性分类 - 图64
投影均值为:线性分类 - 图65
投影协方差为:线性分类 - 图66
不同类的投影均值和投影方差分别为:
线性分类 - 图67
线性分类 - 图68
线性分类 - 图69
线性分类 - 图70
线性分类 - 图71
线性分类 - 图72
类内与类间
类间距离,用线性分类 - 图73度量
类内距离,用线性分类 - 图74度量
目标函数
线性分类 - 图75
线性分类 - 图76
分子
线性分类 - 图77
分母=线性分类 - 图78
线性分类 - 图79
所以,线性分类 - 图80
因此,目标函数为
线性分类 - 图81
模型求解
线性分类 - 图82线性分类 - 图83类间方差;线性分类 - 图84线性分类 - 图85类内方差
注意线性分类 - 图86均为对称矩阵
则目标函数为:线性分类 - 图87
求偏导得到
线性分类 - 图88
线性分类 - 图89为一个实数标量,线性分类 - 图90也是一个标量,因此
线性分类 - 图91
线性分类 - 图92
线性分类 - 图93
对于向量线性分类 - 图94,有两个属性,大小和方向,我们关心的是方向,因为大小可以改变
线性分类 - 图95
线性分类 - 图96可以看作向量在线性分类 - 图97方向上的投影,是个标量。
如果线性分类 - 图98是个对角矩阵,称为各向同性,则线性分类 - 图99,则线性分类 - 图100

4逻辑回归(Logistic Regression)

Sigmoid Function
从线性回归到线性分类 - 图101,从降维的角度看,是通过一个激活函数实现线性分类 - 图102,对于逻辑回归而言,激活函数就是线性分类 - 图103
线性分类 - 图104
线性分类 - 图105
函数图像:
sigmoid.png
线性分类 - 图107
线性分类 - 图108
换一种更简洁的写法
线性分类 - 图109
从概率视角
线性分类 - 图110
线性分类 - 图111
线性分类 - 图112是一种交叉熵线性分类 - 图113只是前面少个线性分类 - 图114
线性分类 - 图115回归采用交叉熵作为损失函数,输出标签为1的后验概率,记为线性分类 - 图116,真实条件概率可以表示为
线性分类 - 图117
损失函数:
线性分类 - 图118
线性分类 - 图119
因此一个结论就是:
线性分类 - 图120

5高斯判别分析(Gaussian Discriminant Analysis)

高斯判别分析线性分类 - 图121是一种生成学习算法,生成式与判别式的区别:

模型定义
样本数据线性分类 - 图122
线性分类 - 图123
假设线性分类 - 图124
一个简介表达为
线性分类 - 图125
假设线性分类 - 图126
一个简介表达为
线性分类 - 图127
线性分类 - 图128:
线性分类 - 图129
参数线性分类 - 图130线性分类 - 图131
线性分类 - 图132的样本个数为线性分类 - 图133线性分类 - 图134的样本个数为线性分类 - 图135,则线性分类 - 图136
模型求解
线性分类 - 图137
线性分类 - 图138
线性分类 - 图139
线性分类 - 图140
线性分类 - 图141
线性分类 - 图142线性分类 - 图143为例
线性分类 - 图144
线性分类 - 图145
线性分类 - 图146
线性分类 - 图147求偏导得到
线性分类 - 图148
线性分类 - 图149
线性分类 - 图150
线性分类 - 图151
记两类样本分别为线性分类 - 图152,样本方差分别为
线性分类 - 图153
线性分类 - 图154
其中,线性分类 - 图155
则上式可简化为
线性分类 - 图156
线性分类 - 图157

因此,上式又可写为
线性分类 - 图158
线性分类 - 图159求偏导得到
线性分类 - 图160
线性分类 - 图161
在该推导过程中使用到

  • 线性分类 - 图162
  • 线性分类 - 图163
  • 线性分类 - 图164
  • 线性分类 - 图165

    6朴素贝叶斯()