几篇论文通过对损失函数进行可视化,得出了几个有意思的结论:有shortcut 连接的网络结构损失函数曲面更加 规则(意味着更好训练);当网络变宽(神经元数量增加)时,损失函数曲面趋于平缓。