为什么需要激活函数

线性变换的组合还是线性变换,因此,仅仅通过组合全连接层和卷积层,最后得到的结果是线性变换的组合,可以等价为是一个线性变换。
为了让神经网络引入非线性的特性,我们需要在线性变换之间插入非线性层,于是需要引入激活函数的概念。
激活函数,是一类非线性函数的统称,通过对线性变换中输出结果的每个分量都应用激活函数,可以输出非线性的结果。

常用的激活函数

激活函数 - 图1

输入层和隐藏层

Sigmoid函数的取值范围在0~1之间,当x很小的时候,输出接近于0,x很大的时候接近于1
Tanh函数的取值范围在-1~1之间
RELU函数的几个重要特性:
x>0时,导数值恒为1,有助于深度学习模型的训练和收敛
计算简单,能够更快进行计算
这三个函数主要是输入层和隐藏层之间的激活函数

隐含层和输出层之间

根据神经网络预测的目标不同,会使用不同的激活函数
Sigmoid函数的输出在0~1之间,能够表示二分类中某一个分类的概率
如果是多分类问题,最后一层的线性输出要等于最终分类的数目,而具体输出的每一个类的概率需要通过softmax激活函数输出