1. dropout
    2. L1, L2正则化

    L1产生更少的特征向量,其他特征的权值为0
    L2选择更多的特征,每个特征权值都比较小

    1. 数据增广
    2. 在过拟合前提前结束训练