第五章支持向量机

1.线性SVM分类
- 1.1软间隔分类
- 1.2非线性SVM分类
2.非线性svm分类
3.SVM回归
4.工作原理
- 4.1 二次规划
- 4.2 核技巧

1.线性SVM分类

SVM对特征缩放非常敏感。

1.1软间隔分类

硬间隔分类器有两个主要问题。首先，它只在数据是线性可分离的时候才有效；其次，它对异常值非常敏感。
如果SVM模型过拟合，可以尝试通过降低C来对其进行正则化。
与Logistic回归分类器不同，SVM分类器不会输出每个类的概率。

1.2非线性SVM分类

2.非线性svm分类

2.1多项式内核

核技巧
寻找正确的超参数值的常用方法是网格搜索。

2.2相似特征

解决非线性问题的另一种技术是添加相似特征，这些特征经过相似函数计算得出，相似函数可以测量每个实例与一个特定地标之间的相似度。
选择实例的简单方法。在数据集里每一个实例的位置上创建一个地标。这会创建出许多维度，因而也增加了转换后的训练集可分离的机会。缺点是一个有m个实例n个特征的训练集会被转换成一个m个实例m个特征的训练集(假设抛弃了原始特征)。

2.3高斯RBF内核

增加gamma值会使钟形曲线变得更窄，因此每个实例的影响范围随之变小：决策边界变得更不规则，开始围着单个实例绕弯。反过来，减小gamma值使钟形曲线变得更宽，因而每个实例的影响范围增大，决策边界变得更平坦。过拟合—>降低，欠拟合—>提高。

3.SVM回归

SVM算法非常全面：它不仅支持线性和非线性分类，而且还支持线性和非线性回归。诀窍在于将目标反转一下：不再尝试拟合两个类之间可能的最宽街道的同时限制间隔违例，SVM回归要做的是让尽可能多的实例位于街道上，同时限制不再街道上的实例。
SVM也可以用于异常值检测。

第五章 支持向量机