拓展到高纬度注意力池化层如何设计注意力分数加性注意力(additive attention) 拓展到高纬度 注意力池化层 如何设计注意力分数 加性注意力(additive attention)相当于单隐藏层的MLP,输出大小为1好处:key,query的形状可以不一样