简单的来说,就是把onehot + MLM的概率分布 onehot是一个Seqlen Vocab大小的MLM是一个Seqlen EmbedSize 大小的 然后one-hot * WordEmbedding = Seqlen,EmbedSIze二者用一个加权加即可 作为一个数据增强的策略 这里的对比Baseline有点意思有空可以看一看