1208

浏览 106 扫码分享 2023-11-23 23:05:30

写出Attention的公式，Attention机制里面的q,k,v分别代表什么

2.Transformer 中使用多头注意力的好处是什么

3.Attention 中 self-attention 的时间复杂度

4.Transformer 中的 encoder 和 decoder 的异同点

5.Bert 和 GPT 的异同点

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录