各向异性指的就是,根据方向的不同,物品的性质也会发生不同
    在自然语言处理BERT里,也就是说,只要换一个方向,词向量可能就会趋同/完全不同
    然后我们是希望词向量的分布是相对均匀的,而不是挤成一坨

    更加正式的说如下的例子

    image.png
    低频词汇稀疏
    高频的词汇过于稠密
    同时词汇表示关系会收到词频的影响

    image.png
    image.png

    假如我们使用原始的BERT Embedding
    就会导致在做一些相似度匹配的时候,很多的Embedding都非常的相似

    因此需要重新把向量空间重新映射回正常的方向
    image.png