正向传播

image.png

反向传播

image.png

随机初始化

  1. 如果都初始化为0 ,那么在前向传播和后向传播传播中,那么由于隐含单元开始计算同一个函数, 所有的隐含单元就会对输出单元有同样的影响。但注意,不是说每次迭代的结果都是0 ,应为有激活函数的非线性计算,结果不定是0 但每个单元计算的结果一样,这样就会有对称的问题(叫做 **symmetry breaking problem**)。<br />通常初始化的参数如下:<br />![image.png](https://cdn.nlark.com/yuque/0/2021/png/22608420/1640749647163-fba69353-20cf-42b7-b5b9-30cd2491a0f9.png#clientId=uf4206b4b-11d0-4&crop=0&crop=0&crop=1&crop=1&from=paste&height=119&id=ubf66ad72&margin=%5Bobject%20Object%5D&name=image.png&originHeight=238&originWidth=824&originalType=binary&ratio=1&rotation=0&showTitle=false&size=33209&status=done&style=none&taskId=uea2618ba-6e5d-4946-b87e-18addf935db&title=&width=412)<br />加0.01或者0.001 是因为想让激活函数的输入值控制在敏感范围,如果太大,就会到达激活函数的饱和区,就会导致这些地方梯度很小也就意味着梯度下降会很慢,因此学习也就很慢。