https://zhuanlan.zhihu.com/p/54743941

    https://zhuanlan.zhihu.com/p/54356280

    RNN

    并行化能力差

    CNN

    Trasnformer

    Google,Attention is all you need, 2017,具有比RNN和CNN更强的特征提取能力

    Transformer是个叠加的“自注意力机制(Self Attention)”构成的深度网络,是目前NLP里最强的特征提取器

    Bert是一个unsupervised transformer

    位置信息

    Transformer是用位置函数来进行位置编码的,而Bert等模型则给每个单词一个Position embedding,将单词embedding和单词对应的position embedding加起来形成单词的输入embedding

    长距离依赖特征

    Self attention解决句子中长距离依赖特征的问题。

    网络深度Transformer有两个版本:Transformer base和Transformer Big。两者结构其实是一样的,主要区别是包含的Transformer Block数量不同,Transformer base包含12个Block叠加,而Transformer Big则扩张一倍,包含24个Block。无疑Transformer Big在网络深度,参数量以及计算量相对Transformer base翻倍,所以是相对重的一个模型,但是效果也最好。