在数据分析中的建模也可以说是机器学习的过程,主要的思想就是通过机器学习算法,用现有的数据对其他的数据进行预测,同时更具模型对现有数据的特征进行判断,最终达到一定的目标。对于传统的机器学习模型来说我们呢一般用sklearn来完成,对于一些特殊的算法比如xgboost、arima这类的算法有自己的第三方库,深度学习的神经网络一般用keras或者pytorch

建模的步骤

一般的机器学习建模有以下步骤:

  • 划分训练集、测试集、验证集
  • 导入模型
  • 训练
  • 调参

机器学习算法

在数据分析中常用的机器学习算法有以下几种

  • 决策树
  • 随机森林
  • 线性回归
  • 逻辑回归
  • 高斯过程
  • K紧邻(KNN)
  • 先行神经网络
  • LSTM(长短神经网络)

    关于模型的选择

    树模型对于很多结构化数据都可以很好的拟合。任务数据量不大,类别信息较多,可以优先树模型。如果数据量足够大,特征很难人工完成的时候,也可以考虑深度学习模型。
    序列类型可以尝试LSTM和CNN,VAE用来做数据压缩降维,特别是匿名特征。
    XGB/LGB和Catboost有什么选择依据吗