1210

浏览 112 扫码分享 2023-11-23 23:04:37

为什么self-attention model在长距离序列中如此强大

2.Bert 类模型中的绝对位置 embedding 和相对位置 embedding 怎么理解，各自的优缺点和使用场景

3.Bert 的预训练任务有哪些，各自的作用是什么

4.Roberta、Albert 分别对 Bert 做了哪些改进

5.XLNet 如何实现 Permutation Language Model

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录