1. 写出Attention的公式 ,Attention机制里面的q,k,v分别代表什么
      image.png
      2.Transformer 中使用多头注意力的好处是什么
      image.png
      3.Attention 中 self-attention 的时间复杂度
      image.png
      4.Transformer 中的 encoder 和 decoder 的异同点
      image.png
      image.png
      5.Bert 和 GPT 的异同点
      image.png