Transformer线性回归Softmax和分类模型多层感知机文本预处理语言模型与数据集循环神经网络过拟合、欠拟合及其解决方案梯度消失与爆炸、初始化ModernRNN机器翻译注意力机制和Seq2seq模型模型微调卷积神经网络基础LeNet批量归一化和残差网络优化与深度学习梯度下降优化算法进阶Word2Vec词嵌入进阶文本分类数据增强