1. 特征归一化
目的:消除量纲影响,避免梯度下降过程“之字形”优化,更快(迭代次数少)收敛。
适用条件:通过梯度下降法求解的模型,对于决策树模型不适用。
1. 线性函数归一化(min-max scaling)
缺点:当测试集或要预测的数据里出现数值不在中时,会导致max或min发生变化,需要重新计算。所以实际情况常用z-score。
2. 零均值归一化(z-score normalization)
2. 异常特征样本清洗
- 聚类
- 孤立森林
局部离群因子(LOF)
我们在实际项目中拿到的数据往往有不少异常数据,有时候不筛选出这些异常数据很可能让我们后面的数据分析模型有很大的偏差。那么如果我们没有专业知识,如何筛选出这些异常特征样本呢?常用的方法有两种。
第一种是聚类,比如我们可以用KMeans聚类将训练样本分成若干个簇,如果某一个簇里的样本数很少,而且簇质心和其他所有的簇都很远,那么这个簇里面的样本极有可能是异常特征样本了。我们可以将其从训练集过滤掉。
第二种是异常点检测方法,主要是使用iForest或者one class SVM,使用异常点检测的机器学习算法来过滤所有的异常点。
当然,某些筛选出来的异常样本是否真的是不需要的异常特征样本,最好找懂业务的再确认一下,防止我们将正常的样本过滤掉了。3.处理不平衡数据
1. 权重法
2. 采样法
欠采样,过采样