为什么self-attention model在长距离序列中如此强大 2.Bert 类模型中的绝对位置 embedding 和 相对位置 embedding 怎么理解,各自的优缺点和使用场景 3.Bert 的预训练任务有哪些,各自的作用是什么 4.Roberta、Albert 分别对 Bert 做了哪些改进 5.XLNet 如何实现 Permutation Language Model