https://aistudio.baidu.com/aistudio/education/preview/1389301

传统注意力机制

attention重要概念

image.png

计算方式和两种注意力计算

image.png

注意力打分函数

image.png

软注意力和硬注意力

image.png

局部注意力机制和全局注意力机制

image.png

自注意力机制和交叉注意力机制

image.png

Transformer注意力机制


Transformer简介和关键点

image.png

模型结构

image.png

多头注意力层

image.png
每一个头是特征子空间

多头注意力层

image.png
image.png

逐位置前馈网络

image.png

残差连接

image.png
权重矩阵退化:权重矩阵的秩表达了空间中线性无关的向量个数,那么低秩意味着参数空间所表达的空间纬度不高。

层归一化

image.png
归一化中的放射变量:对于多个样本的输入,方差和均值是不同的,这里的放射变化是为了综合这些不同的样本。
为什么不是bn: 因为输入为不等长的文本,所以彼此分布可能有很大的不同,尽管在此后用padding进行了填充使它们等长。

输入表示

image.png
RNN天然是有序的,而Transformer解除了时序依赖。位置编码因此被引入进来,它将词序信息向量化,是模型中不可或缺的一部分。上图提供了两种位置编码的方式,本质都是用dmodel 维向量来位置编码,上述中i表示第i个样本,pos + k表示相隔 k 个词的位置。

image.png

模型效果展示

image.png

image.png

总结

image.png
image.png
在数据量不够的情况下,transformer并不一定好。

Transformer在cv中的应用

图像分类: Vit

image.png
虚拟块:如上图[0#],用它去跟说有编码块进行交互,可认为他具备全局语义信息,在后续分类中使用它输入mlp来生成分类。

图像分割: SETR

image.png

目标检测: DERT

image.png
image.png

图像预训练模型: IPT

image.png
task embedding: 在传统的解码器中,需要特定的词嵌入作为开始标识,所以作为变通,在cv领域使用不同任务的词嵌入来作为开始标识。
image.png

其他

image.png
image.png
image.png