卷积感知机神经网络是什么,如何直观理解它的能力极限?他又是如何无限逼近真理?如何理解损失函数交叉熵如何做损失函数如何理解梯度下降法softmax是为了解决归一问题凑出来的吗?“随机梯度下降、牛顿法、动量法”“拉格朗日对偶问题”如何直观理解?“KKT条件”Slater条件” “凸优化”打包了解L1和L2正则化“直观理解”,又为什么叫权重衰减