预训练模型 - Elmo - 《NLP论文》

论文题目

Deep contextualized word representations

feature-based和fine-tuning

feature-based是在大规模语料上训练语言模型，训练完毕得到语言模型用作embedding，构造task-specific模型，采用有label的语料训练模型，将语言模型参数固定。Elmo属于feature-based。
fine-tuning是在大规模语料上训练语言模型，在语言模型基础上添加少量神经网络层完成下游任务。语言模型的参数不固定。

双向语言模型

Elmo - 图1

损失函数

Elmo - 图3

使用Elmo

Elmo - 图4
每层的forward和backward的hidden_layer进行concat。
concat的vector乘以学习到的weight。
最后的向量进行求和。
获取预训练的embedding。
freeze预训练模型的weights，进行下游任务。