各向异性指的就是,根据方向的不同,物品的性质也会发生不同在自然语言处理BERT里,也就是说,只要换一个方向,词向量可能就会趋同/完全不同然后我们是希望词向量的分布是相对均匀的,而不是挤成一坨 更加正式的说如下的例子 低频词汇稀疏高频的词汇过于稠密同时词汇表示关系会收到词频的影响 假如我们使用原始的BERT Embedding就会导致在做一些相似度匹配的时候,很多的Embedding都非常的相似 因此需要重新把向量空间重新映射回正常的方向