https://zhuanlan.zhihu.com/p/54743941
https://zhuanlan.zhihu.com/p/54356280
RNN
并行化能力差
CNN
Trasnformer
Google,Attention is all you need, 2017,具有比RNN和CNN更强的特征提取能力
Transformer是个叠加的“自注意力机制(Self Attention)”构成的深度网络,是目前NLP里最强的特征提取器
Bert是一个unsupervised transformer
位置信息
Transformer是用位置函数来进行位置编码的,而Bert等模型则给每个单词一个Position embedding,将单词embedding和单词对应的position embedding加起来形成单词的输入embedding
长距离依赖特征
Self attention解决句子中长距离依赖特征的问题。
网络深度Transformer有两个版本:Transformer base和Transformer Big。两者结构其实是一样的,主要区别是包含的Transformer Block数量不同,Transformer base包含12个Block叠加,而Transformer Big则扩张一倍,包含24个Block。无疑Transformer Big在网络深度,参数量以及计算量相对Transformer base翻倍,所以是相对重的一个模型,但是效果也最好。
