TransformerBERT参考 Transformer BERTBERT 其實就是 Transformer 中的 Encoder,只是有很多層: Bert 有24层,针对不同的任务,需要用到不同的层: 参考Transformer-李宏毅ELMO, BERT, GPT-李宏毅