简单的来说,就是把onehot + MLM的概率分布

    onehot是一个Seqlen Vocab大小的
    MLM是一个Seqlen EmbedSize 大小的

    然后one-hot * WordEmbedding = Seqlen,EmbedSIze
    二者用一个加权加即可

    作为一个数据增强的策略

    这里的对比Baseline有点意思
    有空可以看一看

    image.png