pseudo-label
伪标签学习 ——一种简单有效的半监督学习方法

伪标签学习

  • 这一技术,让我们不必再手工标注无标签数据,我们只需要基于有标签数据的技术来给出一个近似的标签,我们把这个过程分成多个步骤逐一介绍。
  • 为了训练一个监督学习的机器学习模型,我们必须要有带标签的数据。那这是否意味着无标签的数据对于诸如分类和回归之类的监督任务就无用了呢?当然不是! 除了使用额外数据进行数据分析,还可以将无标签数据和标签数据结合起来,一同训练半监督学习模型。

伪标签 - 图1

  • 该方法的主旨思想其实很简单。首先,在标签数据上训练模型,然后使用经过训练的模型来预测无标签数据的标签,从而创建伪标签。此外,将标签数据和新生成的伪标签数据结合起来作为新的训练数据。

下面有一份整理了的流程图,具体执行步骤总结,和大家一起看一下:

  • 将有标签部分数据分为两份:train_set&validation_set,并训练出最优的model1
  • 用model1对未知标签数据(test_set)进行预测,给出伪标签结果pseudo-labeled
  • 将train_set中抽取一部分做新的validation_set,把剩余部分与pseudo-labeled部分融合作为新的train_set,训练出最优的model2
  • 再用model2对未知标签数据(test_set)进行预测,得到最终的final result label