SGD 随机梯度下降优化算法 SGD 随机梯度下降学习率lr动量momentum optimizer = torch.optim.SGD(model.parameters(), lr=config['learning_rate'], momentum=0.9)