总结 - 《自然语言处理NLP》

2020.12.19：
对于NLP论文的理解：数据增强；记忆；过滤；任务开拓；数学理论搭建

1.数据构造+增强

根据任务来设计：任务标签

根据类间差：空间标签

少量带标签数据（数据增强：（增强范围：自然文本；增强方式：无监督聚类）

少量带标签数据（数据增强：（增强范围：自然文本））
数据噪声比较大问题

大量无标签数据->带标签数据
I love china -> l love [mask]：[mask]=china
根据数据本身设计标签：用于下游任务。
强化学习；

“Tony was born in New York.” ，能否设计一个模型/方法自动判断出该句子中有“born in”的关系。

④ 自然语言处理数据增强
基于词向量：在嵌入空间中找寻相邻词汇进行替换，我们所熟知的TinyBERT[3] 就利用这种技术进行了数据增强。
基于词向量空间：自然文本空间不存在的增强
数据集增强

2.过滤

① 标签注意力
② 标签注意力的延伸

③ 错的再出现，对的不出现
10000
10000+x（错的）允许错一次