zero初始化的问题会导致,每个输入对隐含层不同节点的权重都相等(为0),最终每个隐含层unit随着学习仍相等(不为0),最终每个隐含层unit学到的同一个特征,变成了冗余没有什么价值。image.png
    通过随机初始化,让theta在(-e,e)之间,可以避免这个问题
    image.png