机器学习总结
导包:
from sklearn.preprocessing import polynomailFeatures
- 机器学习总结
- 模型作用
- 原理/损失函数
- 优缺点 | 类别 | 方法 | 适用情况 | 损失函数 | 学习策略 | 优化算法 | | —- | —- | —- | —- | —- | —- | | 监督学习 | 线性模型 | 二分类 | MSE | 极小化误分类点到超平面距离 | 最小二乘/梯度下降 | | 监督学习 | 逻辑回归 | 二分类 | 对数损失函数 | 极大似然估计 | 梯度下降 | | | 决策树 | 多分类 | 对数似然损失 | 极大似然估计 | 特征选择、生成、剪枝 | | | 支持向量机 | 二分类 | 合页损失函数 | 支持向量离超平面软间隔最大化 | 序列最小最优化算法SMO | | | 朴素贝叶斯 | 多分类 | 对数损失函数 | 极大似然估计、极大后验概率估计 | EM算法 |
| 模型名称 | 数学假设 | 模型优缺点 | 评测指标及其计算方法 |
|---|---|---|---|
| LR | 假设特征与分类结果存在线性关系 使用sigmoid函数映射到0-1 |
与随机梯度上升算法相比,预测精度准确, 但是耗费时间长 |
准确性(Accuracy) 召回率(Recall) 精确率(Precision)以及F1 |
| NB | 各个维度上的特征被分类的条件概 率之间是相互独立的、贝叶斯公式 |
广泛用于文本分类 优点:速度快,参数估计的个数锐减 缺点:在特征关联性较强的任务性能差 |
同上 |
| 集成模型 | 训练多个模型 RF—-bagging GDBT——boosting 模型融合相关内容 |
优点:性能高、稳定性强、广泛应用于工业界 缺点:训练时间长,调参是体力活 xgb、lightGBM是比较快的 |
同上 |
- 类似函数模型/分类模型,区别
一、机器学习模型按照可使用的数据类型分为监督学习和无监督学习两大类。
1.监督学习主要包括用于分类和用于回归的模型:
1)分类:线性分类器(如LR)、支持向量机(SVM)、朴素贝叶斯(NB)、K近邻(KNN)、决策树(DT)、集成模型(RF/GDBT等)
2)回归:线性回归、支持向量机(SVM)、K近邻(KNN)、回归树(DT)、集成模型
2.无监督学习主要包括:数据聚类(K-means)/ 数据降维(PCA)等等.
(ExtraTrees/RF/GDBT)
回归算法是一种有监督学习算法,用来建立自变量X和观测变量Y之间的映射关系,如果观测变量是离散的,则称其为分类Classification;如果观测变量是连续的,则称其为回归Regression。
回归算法的目的是寻找假设函数hypothesis来最好的拟合给定的数据集。常用的回归算法有:线性回归(Linear Regression)、逻辑回归(Logistic Regression)、多项式回归(Polynomial Regression)、岭回归(Ridge Regression)、LASSO回归(Least Absolute Shrinkage and Selection Operator)
1.线性回归:
线性回归模型试图学得一个线性模型以尽可能准确地预测实值X的输出标记Y。在这个模型中,因变量Y是连续的,自变量X可以是连续或离散的
线性回归在假设特证满足线性关系,根据给定的训练数据训练一个模型,并用此模型进行预测。给定的数据集学得一个通过属性的线性组合来进行的预测函数
2.逻辑回归

