1.激活函数
1.1.常用激活函数
目前常用的方法是隐藏层使用ReLU函数,输出层使用sigmod函数。具体内容见下图:
1.2.为什么要使用非线性激活函数
因为多个线性激活函数的组合仍然是线性激活函数,中间的隐藏层就失去作用了。具体内容见下图:
2.梯度下降
梯度下降用于更新参数(权重w和偏置b),具体计算过程见下图:
梯度下降涉及前向传播和反向传播,反向传播的过程是从网络结尾向网络开头逐层计算参数的导数(dw和db),计算出的导数用于更新参数(w和b,更新参数的公式见图3)。反向传播中对参数的求导公式如下图:
反向传播的具体推导可以参考这篇博客:https://www.cnblogs.com/jsfantasy/p/12177275.html