1. 为什么self-attention model在长距离序列中如此强大
      image.png
      2.Bert 类模型中的绝对位置 embedding 和 相对位置 embedding 怎么理解,各自的优缺点和使用场景
      image.png
      3.Bert 的预训练任务有哪些,各自的作用是什么
      image.png
      image.png
      4.Roberta、Albert 分别对 Bert 做了哪些改进
      image.png
      image.png
      5.XLNet 如何实现 Permutation Language Model
      image.png
      image.png