什么是梯度爆炸和梯度消失?验证集的作用优化算法正则化什么问题类型对应选择什么损失函数?什么是网格搜索参数?怎么用来优化模型?过拟合什么时候会考虑使用正则化降低泛化误差?如何选择一个合适的模型?什么是权重衰减(weight decay)?什么是学习率策略?为什么残差网络可以避免梯度消失问题?K折交叉验证如何理解GoogleNet模型?什么是Interception结构(网络)?1*1卷积的作用?什么是感受野?如何计算?如何理解ML中的鲁棒性?现代经典网络结构介绍什么是BatchNorm什么是CUDA?是否训练集和测试集都进行数据增强?什么叫Bias,什么叫Variance?