样本不均衡问题处理方法

数据扩充：业务方和自己扩充；
采样方法：过采样和欠采样方式；
分类权重进行更改；
one class SVM
选用不敏感的模型：比如树类模型

如何跳出局部最优解
初始参数随机，用不同的初始参数进行多组实验找出最优的一组解，这相当于从不同的位置进行搜索
带动量的梯度下降，可能会越过最低点
随机梯度下降，加入随机因素，每次取一个样本计算梯度，因为单点的最优方向可能不是全局的最优方向，表现在图像上就是在寻找全局最优的路上饶了很多弯路才到达最优点。
使用模拟退火算法，每次以一定的概率允许移动到比当前解差的点，可以跳过局部最优

梯度爆炸和梯度消失
出现的原因：
梯度消失经常出现，一是在深层网络中，二是采用了不合适的损失函数，比如sigmoid。
梯度爆炸一般出现在深层网络和权值初始化值太大的情况下
解决方法：
梯度爆炸：比如控制梯度阈值，若是大于阈值，用阈值进行更新
注：事实上，在深度神经网络中，往往是梯度消失出现的更多一些。
梯度消失：比如使用Relu或leakrelu替换sigmoid作为激活函数；残差结构；LSTM
共同的方法：batchnorm；

1x1卷积核的作用
灵活的控制特征图的深度
减少参数：前面所说的降维，其实也是减少了参数，因为特征图少了，参数也自然跟着就减少，相当于在特征图的通道数上进行卷积，压缩特征图，二次提取特征，使得新特征图的特征表达更佳。接着再通过两个例子来看看它是如何减少参数的。例如：GoogleNet的3a模块中；在ResNet模块中都有体现。
现了跨通道的信息组合，并增加了非线性特征1*1卷积核，可以在保持feature map尺度不变的（即不损失分辨率）的前提下大幅增加非线性特性（利用后接的非线性激活函数），把网络做的很deep，增加非线性特性。

参考：https://zhuanlan.zhihu.com/p/37910136

300-算法基础知识

【ML】简单问答

样本不均衡问题处理方法

如何跳出局部最优解

梯度爆炸和梯度消失

1x1卷积核的作用