https://blog.csdn.net/not_guy/article/details/78749509

    1. sigmoid

    优点:函数平滑便于求导,在前向传播中比较适合
    缺点:

    1. 容易出现梯度消失
    2. 假设输入均为正数(或负数),那么对w的导数总是正数(或负数),这样在反向传播过程中要么都往正方向更新,要么都往负方向更新,导致使得收敛缓慢。
    1. tanh

    优点:解决sigmoid第b个缺点
    缺点:易发生梯度消失

    1. relu

    优点:收敛速度快,计算简单
    缺点:某些神经元可能永远不会被激活,导致相应参数永远不会被更新(在负数部分,梯度为0)。