注意力分数是query和key的相似度,注意力权重是分数的softmax结果
!!!注意下方里是一个(即某一个,而不是所有的查询)查询q(对应某一个query,可能是标量也可能是向量),f函数的意义就是这个查询最后得到的加权结果。
1,常规的标量时,就是a=-1/2(x-xi)^2
拓展到多维 有两种:加性注意力(additive attention)和加性注意力(additive attention)(后者是当query和key的长度相同时)
2,加性注意力
k是长为k的向量,q是长为q的向量
3,缩放点积注意力
为确保无论向量长度如何, 点积的方差在不考虑向量长度的情况下仍然是1, 我们将点积除以√d
向量化版本意思是假设有n个query,m个key和value