1背景

观察机器学习有两个视角：频率派与贝叶斯派。频率派最终发展成了统计机器学习，贝叶斯派最终发展成了概率图模型。
线性分类 - 图1
线性回归线性分类 - 图2 在统计机器学习占据基础地位，打破其特点从而发展出了各种算法，构成了统计机器学习的框架。
线性回归的特点

线性回归：线性分类 - 图4

第一个特点是线性，包括属性线性，系数线性和全局线性。即相对于是线性的，相对于系数是线性的，相对于是线性的。

打破对线性分类 - 图11 的线性，如多项式回归，包含线性分类 - 图12 的多项式
打破对系数线性分类 - 图13 的线性，如神经网络，感知机。随着线性分类 - 图14 的不同，系数也会不同
打破对线性分类 - 图15 的线性，如线性分类 - 图16 回归，激活函数线性分类 - 图17 是非线性的

第二个特点是全局性，即特征空间是一个完整的。

打破这种全局性，如线性样条回归是在不同的空间内进行回归
决策树是对特征空间进行“纵横切割”

第三个特点是数据未加工，打破这个特点，如降维算法，，流形

从线性回归到线性分类
可以从激活函数和降维两个层面理解从线性回归到线性分类。

激活函数

线性分类 - 图19 ，线性分类 - 图20 称为激活函数线性分类 - 图21 ，线性分类 - 图22 在统计学中称为线性分类 - 图23

降维

函数线性分类 - 图24 将线性分类 - 图25 从线性分类 - 图26 维映射到1维
线性分类的分类
线性分类大致可分为硬分类和软分类。
线性分类 - 图27

2感知机(Perceptron)**

样本集：，错误分类集合：，假设：样本线性可分。
模型：

**
思想：错误驱动
对于，对于正确分类的样本有：

策略：
因此，对于损失函数，一个最简单的想法是
线性分类 - 图34
但上式存在不连续，不可微等弱点，对于计算很不利，因此提出了下式：
线性分类 - 图35
损失函数对系数的偏导为：
优化算法：SGD,随机梯度下降

注意对于感知机有一个前提假设，样本集可线性可分，如果不符合该假设，有一个变体

3线性判别分析(fisher)

模型定义
样本数据线性分类 - 图40
线性分类 - 图41
思想：类内小，类间大
出发点：
借助降维地观点，希望找到一个投影方向，使得高维样本投影到某个一维方向上，使得不同的类在该方向上的投影相互分离，能够在该方向上找到一个阈值，根据该阈值能够将类识别出来。
投影.png
如图，很明显投影方向线性分类 - 图44 明显比线性分类 - 图45 要好。
很自然我们希望：类内小，类间大。这与计算机中的思想是一致的，松耦合，高内聚
超平面在哪？
假如我们已经找到了这样一个投影方向，那么我们要找的超平面在哪呢？

超平面与投影方向垂直，超平面为线性分类 - 图47

向量垂直：

对于向量二者点乘可以写成代数中的向量相乘
若

假设上两个点为超平面向量，与垂直，则，因此超平面为

投影如何表示？
假设投影方向的二范数为1，即：线性分类 - 图56
两个向量的点积：线性分类 - 图57 ，
线性分类 - 图58 在线性分类 - 图59 上的投影为线性分类 - 图60
投影
用表示线性分类 - 图62 在线性分类 - 图63 上的投影，线性分类 - 图64
投影均值为：线性分类 - 图65
投影协方差为：线性分类 - 图66
不同类的投影均值和投影方差分别为：
线性分类 - 图67
线性分类 - 图68
线性分类 - 图69
线性分类 - 图70
线性分类 - 图71
线性分类 - 图72
类内与类间
类间距离，用线性分类 - 图73 度量
类内距离，用线性分类 - 图74 度量
目标函数

分子

分母=

所以，
因此，目标函数为

模型求解
记线性分类 - 图82 ，线性分类 - 图83 类间方差；线性分类 - 图84 ，线性分类 - 图85 类内方差
注意线性分类 - 图86 均为对称矩阵
则目标函数为：线性分类 - 图87
求偏导得到
线性分类 - 图88
线性分类 - 图89 为一个实数标量，线性分类 - 图90 也是一个标量，因此
线性分类 - 图91
线性分类 - 图92
线性分类 - 图93
对于向量线性分类 - 图94 ，有两个属性，大小和方向，我们关心的是方向，因为大小可以改变
线性分类 - 图95
线性分类 - 图96 可以看作向量在线性分类 - 图97 方向上的投影，是个标量。
如果线性分类 - 图98 是个对角矩阵，称为各向同性，则线性分类 - 图99 ，则线性分类 - 图100

4逻辑回归(Logistic Regression)

Sigmoid Function
从线性回归到线性分类 - 图101 ，从降维的角度看，是通过一个激活函数实现线性分类 - 图102 ，对于逻辑回归而言，激活函数就是线性分类 - 图103 。
线性分类 - 图104
线性分类 - 图105
函数图像：

换一种更简洁的写法

从概率视角
线性分类 - 图110
线性分类 - 图111
线性分类 - 图112 是一种交叉熵线性分类 - 图113 只是前面少个线性分类 - 图114 。
线性分类 - 图115 回归采用交叉熵作为损失函数，输出标签为1的后验概率，记为线性分类 - 图116 ，真实条件概率可以表示为
线性分类 - 图117
损失函数：

因此一个结论就是：

5高斯判别分析(Gaussian Discriminant Analysis)

高斯判别分析线性分类 - 图121 是一种生成学习算法，生成式与判别式的区别：

模型定义
样本数据线性分类 - 图122
线性分类 - 图123
假设线性分类 - 图124
一个简介表达为
线性分类 - 图125
假设线性分类 - 图126
一个简介表达为
线性分类 - 图127
线性分类 - 图128 :
线性分类 - 图129
参数线性分类 - 图130 线性分类 - 图131
设线性分类 - 图132 的样本个数为线性分类 - 图133 ；线性分类 - 图134 的样本个数为线性分类 - 图135 ，则线性分类 - 图136
模型求解
记线性分类 - 图137
求

求以为例

则

对求偏导得到

求：

记两类样本分别为，样本方差分别为

其中，
则上式可简化为

因此，上式又可写为

对求偏导得到

在该推导过程中使用到

6朴素贝叶斯()

线性分类

1背景

2感知机(Perceptron)**

3线性判别分析(fisher)

4逻辑回归(Logistic Regression)

5高斯判别分析(Gaussian Discriminant Analysis)

6朴素贝叶斯()