正向传播
反向传播
随机初始化
如果都初始化为0 ,那么在前向传播和后向传播传播中,那么由于隐含单元开始计算同一个函数, 所有的隐含单元就会对输出单元有同样的影响。但注意,不是说每次迭代的结果都是0 ,应为有激活函数的非线性计算,结果不定是0 但每个单元计算的结果一样,这样就会有对称的问题(叫做 **symmetry breaking problem**)。<br />通常初始化的参数如下:<br /><br />加0.01或者0.001 是因为想让激活函数的输入值控制在敏感范围,如果太大,就会到达激活函数的饱和区,就会导致这些地方梯度很小也就意味着梯度下降会很慢,因此学习也就很慢。
