机器学习 - 传统机器学习算法解析 - 《AI学徒笔记》

1.1 LR算法
1.2 SVM算法
1.3 Decision Tree算法
1.4 朴素贝叶斯分类器算法
1.5 EM算法
1.6 Boosting算法：Random Forest和Bagging算法
1.7 KNN
1.8 K-Means聚类算法
1.9 DBSCAN聚类算法
1.10 HAC聚类算法
1.11 多层感知机
1.12 其他算法

RL与SVM的区别是什么？分别在什么情况下选择？
LR（Logistic Regression）虽然是回归模型，但却是经典的分类方法。为什么分类不用SVM呢？我们对比一下SVM，在二分类问题中，如果你问SVM，它只会回答你该样本是正类还是负类；而你如果问LR，它则会回答你该样本是正类的概率是多少？

1.1 LR算法

参考：

如指数分布、高斯分布等分布一样，logistic是一种变量的分布，它也有自己的概率分布函数和概率密度函数，其中概率分布函数如下：
传统机器学习算法解析 - 图1
对概率分布函数求导，记得到对应的概率密度函数：
传统机器学习算法解析 - 图2
其中， μ就是分布对应的均值， γ是对应的形状参数。
对应示例图如下：
传统机器学习算法解析 - 图3

LR就是一个被logistic方程归一化后的线性回归。

1.2 SVM算法

参考：

支持向量机（英语：support vector machine，常简称为SVM，又名支持向量网络）是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。
通俗说：SVM支持向量机是一个分类算法，通过找到一个分类平面，将数据分隔在平面两侧，从而达到分类的目的。

线性可分SVM

当训练数据线性可分时，通过硬间隔（hard margin）最大化可以学习得到一个线性分类器，即硬间隔SVM。

线性SVM

当训练数据不能线性可分但是可以近似线性可分时，通过软间隔(soft margin)最大化也可以学习到一个线性分类器，即软间隔SVM。

非线性SVM

当训练数据线性不可分时，通过使用核技巧(kernel trick)和软间隔最大化，可以学习到一个非线性SVM。

算法思想：
它分类的基本思想是利用最大间隔进行分类，处理非线性问题是通过核函数将特征向量映射到高维空间，从而变成线性可分的，但是运算却是在低维空间运行的。考虑到数据中可能存在噪音，还引入了松弛变量。

间隔最大化问题的数学表达：
传统机器学习算法解析 - 图5

支持向量机的优点是:

由于SVM是一个凸优化问题，所以求得的解一定是全局最优而不是局部最优。
不仅适用于线性线性问题还适用于非线性问题(用核技巧)。
拥有高维样本空间的数据也能用SVM，这是因为数据集的复杂度只取决于支持向量而不是数据集的维度，这在某种意义上避免了“维数灾难”。
理论基础比较完善(例如神经网络就更像一个黑盒子)。

支持向量机的缺点是:

二次规划问题求解将涉及m阶矩阵的计算(m为样本的个数), 因此SVM不适用于超大数据集。(SMO算法可以缓解这个问题)
只适用于二分类问题。(SVM的推广SVR也适用于回归问题；可以通过多个SVM的组合来解决多分类问题)

应用场景：
SVM（支持向量机）主要用于分类问题，主要的应用场景有字符识别、面部识别、行人检测、文本分类等领域，在机器学习领域，支持向量机SVM(Support Vector Machine)是一个有监督的学习模型，通常用来进行模式识别、分类(异常值检测)以及回归分析。

1.3 Decision Tree算法

参考：

决策树是一种解决分类问题的算法，决策树算法采用树形结构，使用层层推理来实现最终的分类。决策树由下面几种元素构成：

根节点：包含样本的全集
内部节点：对应特征属性测试
叶节点：代表决策的结果

预测时，在树的内部节点处用某一属性值进行判断，根据判断结果决定进入哪个分支节点，直到到达叶节点处，得到分类结果。
决策树三步骤：

特征选择

特征选择决定了使用哪些特征来做判断。在训练数据集中，每个样本的属性可能有很多个，不同属性的作用有大有小。因而特征选择的作用就是筛选出跟分类结果相关性较高的特征，也就是分类能力较强的特征。
在特征选择中通常使用的准则是：信息增益。

决策树生成

选择好特征后，就从根节点触发，对节点计算所有特征的信息增益，选择信息增益最大的特征作为节点特征，根据该特征的不同取值建立子节点；对每个子节点使用相同的方式生成新的子节点，直到信息增益很小或者没有特征可以选择为止。

决策树剪枝

剪枝的主要目的是对抗「过拟合」，通过主动去掉部分分支来降低过拟合的风险。
三种典型的决策树算法：

ID3 算法

ID3 是最早提出的决策树算法，他就是利用信息增益来选择特征的。

C4.5 算法

他是 ID3 的改进版，他不是直接使用信息增益，而是引入“信息增益比”指标作为特征的选择依据。

CART（Classification and Regression Tree）

这种算法即可以用于分类，也可以用于回归问题。CART 算法使用了基尼系数取代了信息熵模型。

决策树算法的优点：

简单直观，生成的决策树很直观。
基本不需要预处理，不需要提前归一化，处理缺失值。
使用决策树预测的代价是O(log2m)。 m为样本数。
既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
可以处理多维度输出的分类问题。
相比于神经网络之类的黑盒分类模型，决策树在逻辑上可以得到很好的解释
可以交叉验证的剪枝来选择模型，从而提高泛化能力。
对于异常点的容错能力好，健壮性高。

决策树算法的缺点:

决策树算法非常容易过拟合，导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
决策树会因为样本发生一点点的改动，就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
寻找最优的决策树是一个NP难的问题，我们一般是通过启发式方法，容易陷入局部最优。可以通过集成学习之类的方法来改善。
有些比较复杂的关系，决策树很难学习，比如异或。这个就没有办法了，一般这种关系可以换神经网络分类方法来解决。
如果某些特征的样本比例过大，生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

应用决策树决策方法必须具备以下条件：
（1）具有决策者期望达到的明确目标
（2）存在决策者可以选择的两个以上的可行的备选方案
（3）存在决策者无法控制的两个以上不确定因素
（4）不同方案在不同因素下的收益或损失可以计算出来
（5）决策者可以估计不确定因素发生的概率

传统机器学习算法解析

1.1 LR算法

1.2 SVM算法

1.3 Decision Tree算法

1.4 朴素贝叶斯分类器算法

1.5 EM算法

1.6 Boosting算法：Random Forest和Bagging算法

1.7 KNN

1.8 K-Means聚类算法

1.9 DBSCAN聚类算法

1.10 HAC聚类算法

1.11 多层感知机

1.12 其他算法