注意力分数是query和key的相似度,注意力权重是分数的softmax结果
    !!!注意下方里是一个(即某一个,而不是所有的查询)查询q(对应某一个query,可能是标量也可能是向量),f函数的意义就是这个查询最后得到的加权结果。
    image.png
    1,常规的标量时,就是a=-1/2(x-xi)^2
    拓展到多维 有两种:加性注意力(additive attention)和加性注意力(additive attention)(后者是当query和key的长度相同时)

    2,加性注意力
    67bb5c235eed9c35824654adbb8d5c5.png
    k是长为k的向量,q是长为q的向量

    3,缩放点积注意力
    1a6764dc99dcba14e717a806b464f4d.png
    为确保无论向量长度如何, 点积的方差在不考虑向量长度的情况下仍然是1, 我们将点积除以√d

    向量化版本意思是假设有n个query,m个key和value