写出Attention的公式 ,Attention机制里面的q,k,v分别代表什么 2.Transformer 中使用多头注意力的好处是什么 3.Attention 中 self-attention 的时间复杂度 4.Transformer 中的 encoder 和 decoder 的异同点 5.Bert 和 GPT 的异同点