1.线性SVM分类

SVM对特征缩放非常敏感。

1.1软间隔分类

硬间隔分类器有两个主要问题。首先,它只在数据是线性可分离的时候才有效;其次,它对异常值非常敏感。
如果SVM模型过拟合,可以尝试通过降低C来对其进行正则化。
与Logistic回归分类器不同,SVM分类器不会输出每个类的概率。

1.2非线性SVM分类

2.非线性svm分类

2.1多项式内核

核技巧
寻找正确的超参数值的常用方法是网格搜索。

2.2相似特征

解决非线性问题的另一种技术是添加相似特征,这些特征经过相似函数计算得出,相似函数可以测量每个实例与一个特定地标之间的相似度。
选择实例的简单方法。在数据集里每一个实例的位置上创建一个地标。这会创建出许多维度,因而也增加了转换后的训练集可分离的机会。缺点是一个有m个实例n个特征的训练集会被转换成一个m个实例m个特征的训练集(假设抛弃了原始特征)。

2.3高斯RBF内核

增加gamma值会使钟形曲线变得更窄,因此每个实例的影响范围随之变小:决策边界变得更不规则,开始围着单个实例绕弯。反过来,减小gamma值使钟形曲线变得更宽,因而每个实例的影响范围增大,决策边界变得更平坦。过拟合—>降低,欠拟合—>提高。

3.SVM回归

SVM算法非常全面:它不仅支持线性和非线性分类,而且还支持线性和非线性回归。诀窍在于将目标反转一下:不再尝试拟合两个类之间可能的最宽街道的同时限制间隔违例,SVM回归要做的是让尽可能多的实例位于街道上,同时限制不再街道上的实例。
SVM也可以用于异常值检测。

4.工作原理

4.1 二次规划

4.2 核技巧