1背景
关于为什么会引入,可以总结成两句话:1、非线性带来高维转换(从模型角度)2、对偶表示带来内积(从优化角度)
我们以线性二分类为例,我们之前介绍的感知机, 硬间隔
都有一个假设,就是样本严格线性可分。如图所示

如果不满足严格线性可分的条件,又有两种情况:
第一种是大致满足线性可分,我们允许模型有一点点错误,相应的算法有Pocket Algorithm和Soft-margin SVM;
第二种是严格非线性,如下图所示。

解决非线性分类问题有两种思路:
第一种:PLA->多层感知机(神经网络)->deep learning,神经网络具有很强的拟合能力,常见的非线性函数都可以用神经网络来近似,这里可以由通用近似定理在理论上得到保证;
第二种:进行一个非线性变换,将非线性问题变成线性问题,通过解变换后的线性问题求解原来的非线性问题。
异或问题
二维空间中有两类样本,四个点,这四个点是线性不可分的,通过一个非线性变换,将原始空间映射到一个三维空间
