2020.12.19:
    对于NLP论文的理解:数据增强;记忆;过滤;任务开拓;数学理论搭建

    1.数据构造+增强

    1. 1. 有监督

    根据任务来设计:任务标签

    1. 2. 无监督

    根据类间差:空间标签

    1. 3. 半监督

    少量带标签数据(数据增强:(增强范围:自然文本;增强方式:无监督聚类)

    1. 3.1 远程监督

    少量带标签数据(数据增强:(增强范围:自然文本))
    数据噪声比较大问题

    1. 4. 自监督->迁移学习

    大量无标签数据->带标签数据
    I love china -> l love [mask]:[mask]=china
    根据数据本身设计标签:用于下游任务。
    强化学习;

    “Tony was born in New York.” ,能否设计一个模型/方法自动判断出该句子中有“born in”的关系。

    ④ 自然语言处理数据增强
    基于词向量:在嵌入空间中找寻相邻词汇进行替换,我们所熟知的TinyBERT[3] 就利用这种技术进行了数据增强。
    基于词向量空间:自然文本空间不存在的增强
    数据集增强

    image.pngimage.png

    2.过滤

      1. 模型过滤

    ① 标签注意力
    ② 标签注意力的延伸

      1. 数据过滤

    ③ 错的再出现,对的不出现
    10000
    10000+x(错的) 允许错一次