判别模型 - 支持向量机 - 《机器学习》

从Logistic Regression 到感知机
为什么叫support vector machines
非线性支持向量机

从Logistic Regression 到感知机

判别条件的转换
从对数直接判断线性

为什么叫support vector machines

感知机：分离超平面不唯一

支持向量

离超平面最近的样本点，使得判断函数的等号成立。这几点被称为支持向量
几何间隔

最有用的点是距离分离超平面最近的点
而这些点在高维空间中表示为向量
因此叫支持向量

几何间隔（margin）

两个异类支持向量到超平面的距离之和
高位空间点到线的距离

目标函数和约束

KKT条件求解

对于强对偶性成立的优化问题，其主问题的最优解 x∗ 一定满足给出的 KKT 条而 KKT 条件中的条件 (1) 就要求最优解 x∗ 能使得拉格朗日函数 L(x,λ, µ)
关于 x 的一阶导数等于 0；
对于任意优化问题，若拉格朗日函数 L(x,λ, µ) 是关于 x 的凸函数，那么此时对 L(x,λ, µ) 关于
x 求导并令导数等于 0 解出来的点一定是最小值点。根据对偶函数的定义可知，将最小值点代回
L(x,λ, µ) 即可得到对偶函数。

练习

SMO求解对偶问题

即是如何求解a*

算法过程

如何求解b

支持向量
当时，即样本移一定在间隔边界上，其他样本点对w，b的求解无影响

软间隔

为什么提出软间隔
在实际应用中，完全线性可分的样本是很少的，如果遇到了不能够完全线性可分的样本，我们应该怎么办？相比于硬间隔的苛刻条件，我们允许个别样本点出现在间隔带里面

软间隔求解

对比线性可分和软间隔

非线性支持向量机

为什么要提出非线性？

不存在直线将点分开
线性不可分：存在一个曲线可以分开

非线性可分

超曲面：结构不是固定的
新问题转换为已经解决的问题

非线性不可分

换到希尔伯特空间？
如何将原问题映射到新空间？

原空间

所以输入的点组成的空间，欧氏空间

核函数

新空间中的内积定义

核函数的作用

低维空间映射到高维空间后维度可能会很大，如果将全部样本的点乘全部计算好，这样的计算量太大了。但如果我们有这样的一核函数支持向量机 - 图17 ，支持向量机 - 图18 与支持向量机 - 图19 在特征空间的内积等于它们在原始样本空间中通过函数支持向量机 - 图20 计算的结果

可见核函数的引入一方面减少了我们计算量，另一方面也减少了我们存储数据的内存使用量