文选 - 《深度学习》

几篇论文通过对损失函数进行可视化，得出了几个有意思的结论：有shortcut 连接的网络结构损失函数曲面更加规则（意味着更好训练）；当网络变宽（神经元数量增加）时，损失函数曲面趋于平缓。