自然语言处理 - 特征提取器（RNN、CNN、Transformer） - 《Deep Learning》

https://zhuanlan.zhihu.com/p/54743941

https://zhuanlan.zhihu.com/p/54356280

RNN

并行化能力差

CNN

Trasnformer

Google，Attention is all you need, 2017，具有比RNN和CNN更强的特征提取能力

Transformer是个叠加的“自注意力机制（Self Attention）”构成的深度网络，是目前NLP里最强的特征提取器

Bert是一个unsupervised transformer

位置信息

Transformer是用位置函数来进行位置编码的，而Bert等模型则给每个单词一个Position embedding，将单词embedding和单词对应的position embedding加起来形成单词的输入embedding

长距离依赖特征

Self attention解决句子中长距离依赖特征的问题。

网络深度Transformer有两个版本：Transformer base和Transformer Big。两者结构其实是一样的，主要区别是包含的Transformer Block数量不同，Transformer base包含12个Block叠加，而Transformer Big则扩张一倍，包含24个Block。无疑Transformer Big在网络深度，参数量以及计算量相对Transformer base翻倍，所以是相对重的一个模型，但是效果也最好。