Bidirectional预训练模型多种信息融合 Bidirectional通常来说采用双向信息进行特征的提取,不会使得模型的效果变差,并且大概率是涨点的! 预训练模型可以采用两种方式(减缓过拟合): 固定预训练模型,只训练 last layer不固定预训练模型,直接 fine-tuning(更常用,采用小学习率,正则化加强一些) 多种信息融合直接平均(late fusion) 将输出组合之后再进行分析(late fusion)在中间层进行特征的融合