x到线性判别平面距离
线性分类面:
图中x到分类面的距离是r
则有 ,
线性判别函数
利用一个超平面把特征空间分隔成两个区域。 超平面的方向由法向量w确定,它的位置由阈值w0确定。 当x点在超平面的正侧时,f(x)>0; 当x点在超平面的负侧时,f(x)<0 x点到超平面的距离
可视为对x判别的“置信度”
最大间隔

最大化间隔的超平面为
等价于
二次规划问题(目标函数为二次函数,约束为线性约束) , 变量数为W的维数D+1,约束项的数目为样本数N
SVM的对偶表示
拉格朗日函数
求使得目标最小的
和
:
将 从
消去,得到对偶表示
因为
仍然是一个QP问题:变量数为N,约束项的数目为(N+1) 当N较大时,对偶问题的复杂度可能比原问题更高,但对偶问题可利用kernel trick与核方法结合 可使用SMO(sequential minimal optimization) 高效求解 ,每次选取一对
做优化 求解出
后,再求出
和
,可以得到判别函数
KKT条件
原问题:
拉格朗日函数:
对偶问题:D =
拉格朗日对偶通常是凹的(即使原问题非凸),可能更容 易优化求解 ,
- 弱对偶性 原问题P的解≥对偶问题D的解总是成立
- 强对偶性 原问题P的解≥对偶问题D的解不总是成立,对凸问题通常成立,对SVM QP 问题总是成立
如果强对偶条件成立,则对最优的,必须满足下述KKT条件
根据KKT中的互补松弛条件,对每个点 当
的时候,该点在判别函数
中不起作用
其他点即满足的点对应位于最大间隔超平面上的点,称为支持向量
模型训练好后,大多数点可以抛掉,只需保留支持向量 即SVM解的稀疏性
w0的计算
任意支持向量满足,又由于
,代入得到
, 即用任意一个支持向量即可求得
两边同时乘以,因为
所以得到
,为了得到更稳定的解,通常使用所有的支持向量求平均,得到
