Bidirectional

通常来说采用双向信息进行特征的提取,不会使得模型的效果变差,并且大概率是涨点的!

预训练模型

可以采用两种方式(减缓过拟合):

  • 固定预训练模型,只训练 last layer
  • 不固定预训练模型,直接 fine-tuning(更常用,采用小学习率,正则化加强一些)

    多种信息融合

  • 直接平均(late fusion

  • 将输出组合之后再进行分析(late fusion
  • 在中间层进行特征的融合