目录

1 简介

Support vector machine ,SVM,是一种无监督学习算法基于训练集样本空间中找到一个划分超平面,将不同类别的样本分开。

  • 把数据映射到高维度特征空间
  • 找到一个分割器(线或面)

截屏2020-12-01 下午8.06.15.png

2 数据转换Data transformation

核心Kernelling : 就是把数据映射到更高维度的空间的过程
核函数kernel function :把数据映射到更高维度空间的函数。 有各种类型的,线性linear 、 Polynomial 、RBF 、 Sigmoid。不用知道他们怎么实现的,直接有工具箱或者编程函数实现。
一般不知道哪个核函数是合适的,只有通过尝试不同的核函数,计算得到结果,再找到结果最优的核函数。

3 通过SVM找到超平面

以二维数据举例,目的需要找到w和b。两条线表示容错范围,若训练样本落在此间隔带,则认为是被预测正确的。
截屏2020-12-01 下午8.24.41.png

4 SVM的优缺点

(1)优点

  • 在高维空间中准确
  • 高效记忆

(2)缺点

  • 可能会过拟合
  • 没有概率估计
  • 只能适合小数据集

    5 SVM的应用

    (1)图片识别
    (2)文本类别分配(Text category assignment)
    (3)情绪分析(sentiment analysis)
    (4)检测垃圾邮件(Detecting Spam)
    (5)基因表达分类(Gene Expression Classificaton)
    (6)回归、离群值检测(outlier detection )和聚类