现金深度学习都需要大量的正确的标注数据,然而这些标注经常是需要巨大的成本,或者一些数据(例如医学图像)对于专家而言,也难以正确分类数据。在实际应用过程中,标签噪声是数据集中的常见问题,因此如何有效的使用noise label进行训练,消除其负面影响是十分具有意义的方向。

按照[1]我们可以把解决noise label的方式分为以下两类:

  • Noise model free methods
  • Noise model based methods

Noise model based methods

1、Noisy Channel

Noisy Channel-based 的方式主要做的就是minimize下面这个东西(loss里面作用):
这里的,是网络输出,是一个矩阵matrix,代表从true label预测到false label的可能性,如果有c个类别,那这个T应该就是c*1的矩阵。因此优化上面这个公式可以使得分类错误的可能性越小。
在这类工作中主要去求这个。求出Q之后加惩罚之类的。
Making deep neural networks robust to label noise: A loss correction approach[2]
Using trusted data to train deep networks on labels corrupted by severe noise[3]
Webly supervised learning of convolutional networks[4]

2、Label Noise Cleansing

关键:label**清洗算法,通过feature extractor在高维空间区分noise label进行清洗。**
这里的代表label清洗算法。

  1. Using data with clean labels:

Iterative cross learning on noisy labels[6]使用不同子集的数据集训练网络,如果对于image的预测都相同,则该设置该image的label为这个预测,反之设置为任意值
Toward robustness against label noise in training deep discriminative neural networks[7]使用一种 graph-based的方法, noisy labels和clean labels之间的关系由条件随机场提取。

  1. Using data with both clean and noisy labels:

Learning from noisy large-scale datasets with minimal supervision[8] 提出一个label cleaning network,这个网络有两个输入extracted features和对应的corresponding noisy labels。label cleaning network和分类器同时训练,一边矫正一边将较真后正确的label用于监督。

  1. Using data with just noisy labels:

Probabilistic end-to-end noise correction for learning with noisy labels[9]在标签后验上附加compatibility loss condition。考虑到noise label占少数,这一项保证了posterior label distribution不会与given noisy label distribution有太多的偏离,从而不会损失大部分的clean label贡献.

3、Dataset Pruning

关键:删除小部分training sample(最有可能是noise label),抑制noise label负面影响
O2u-net: A simple noisy label detection approach for deep neural networks[10]循环调整学习率,使网络状态在欠拟合和过拟合之间变化。存在noise label样本的loss更大,因此在此循环过程中,noise label较大的样本将被去除。

4、Sample Choosing

关键:有选择的输入sample进行优化网络,抑制带来负面影响的noise label的干扰,这个选择是一直更新。
这这个公式里面,是一个binary operator,决定是否使用这个输入data。当这个是一个static function提取确定的筛选方法,这个问题就变成了Dataset Pruning。不同的是,sample choosing methods不断的更新选择sample用于下一个iteration。

  1. Curriculum Learning

Progressive stochastic learning for noisy labels[11]提出了各种屏蔽损失函数,以根据实例的噪声级别对实例进行排序。
Curriculumnet: Weakly supervised learning from large- scale web images[12] 数据根据其复杂性被分成subgroups,这些subgroups由一个预先训练过的网络在整个数据集上提取。由于不太复杂的subgroups趋向于更干净的label,因此训练将从不太复杂的subgroups开始,随着网络的改善,将会经过更复杂的subgroups。通过检验label与网络预测的一致性,可以选择下一个待训练的样本。

  1. Multiple Classifiers

Co-mining: Deep face recognition with noisy labels[13] 通过对两个网络不一致的数据进行迭代,co-teaching的想法得到了进一步的改进,以防止两个网络随着epoch的增加而相互融合.

5、Sample Importance Weighting

关键:与sample choosing类似,根据sample估计的噪声水平给不同的sample分配权重,提高训练的效率。
是不同的sample对应的权重,是一个dynamic function,他的值在训练过程中是持续变化的.
Deep bilevel learning[14]使用meta-learning paradigm确定权重因子。在每次迭代中,每个mini-batch的gradient descent step的weighting factor被确定,从而使在clean data上数据的loss最小化。
Iterative learning with open-set noisy labels[15]考虑了Open-set noisy labels,其中与noisy labels相关的数据样本可能属于训练数据中不存在的class。

6、Labeler Quality Assessment

Deep learning from crowds[16] 增加crowd-layer 在network最后面,使得混淆矩阵更为稀疏。


Noise-based model很大程度上依赖对噪声结构的准确分析,这东西有特殊性
缺点:这类方法通常对数据noise label分布、特点做出假设,这个损害了不同noise label设置的适用性。
优势:引入先验假设也是有利的,有利于解决domain- specific noise,比较有针对更容易实施起来。

Noise model free methods

这类方法的目的是在没有明确建模的情况下实现noise label的鲁棒性,而不是在提出的算法增强鲁棒性。noise label被当作异常处理,因此这些方法与解决over-fitting的方法类似。

1、Robust Losses

关键:提出Robust Losses使得模型在使用noisy 或者 noise-free data都能达到相同的表现效果。
On symmetric losses for learning from corrupted labels[17] 某些非凸损失函数,如0-1损失,比常用的凸损失具有更强的噪声容忍度。
L dmi: A novel information- theoretic loss function for training deep nets robust to label noise[18]提出了基于information-theoretic loss,给定的label和prediction之间的mutual information是被评估的加入loss function。

  • 2019-CVPR - Learning to Learn from Noisy Labeled Data. [Paper] [Code]

关键词: “synthetic noisy labels” ,“noise-tolerant” , “underlying knowledge”
为了消除noise label的负面影响,本文提出了一种noise-tolerant training algorithm。该算法模拟现实训练通过生成合成噪声label。使用合成noise labels训练模型的输出应该和teacher model的输出保持一致,通过self-ensembling method来构建teacher model使得,使其更可靠不受noise label的影响。

2、Meta Learning

关键:Meta lea**rning的目的是通过学习任务所需的复杂函数,以及学习学习本身来减少人为参与。
Learning from noisy labels with distillation[19] 在存在clean data情况下,可以定义一个meta来利用这些信息。在这个方法中使用的方法是在一个clean数据集中训练一个teacher网络,并将其知识转移到student网络中,以便在存在noise label数据的情况下也能指导训练。


关键:使用正则化去防止模型拟合noise label,这个假设在随机噪声中大部分适用,对于复杂的噪声可能不行。

  1. dropout:Dropout: [20] a simple way to prevent neural networks from overfitting.
  2. adversarial training: [21] Explaining and harnessing adversarial examples.
  3. mixup: [22] mixup: Beyond Empirical Risk Minimization,
  4. label smoothing: [23] Regularizing neural networks by penalizing confident output distributions

    4、Ensemble Methods

    关键:由于bagging和boosting的不同,使得bagging是更加鲁棒的对于nosiy label。


    关**键:例如Prototype learning的目的是构建原型,使其能够代表一个类的特征,从而学习干净的表示。文献[25]、[26]提出了对noise label的数据创建干净的代表性原型,从而分类器可以训练的在clean representative prototypes**,而不是对noise label进行训练


    Noise model free methods和overfit avoidance 或者 anomaly detection相似的
    缺点:对于复杂、结构化的噪声可能效果不好。没办法处理一些特殊情况下的noise label。


建议:如果噪声结构是特定领域的,并且对其noise label结构有先验信息或假设,则noise model based的方法更为合适。在这些模型中,可以根据需要选择最合适的方法。

  • 如果可以将噪声表示为noise transition matrix,Noisy channel 或者 Labeler quality assessment 可能有更好的效果。
  • 如果目的是净化数据集或者预处理阶段,Dataset pruning 或者 Label noise cleansing methods可以更好的应用的。
  • 如果可以根据实例在训练中的信息量对其进行排序,那么Sample choosing 或者 Sample importance weighting algorithms是很方便的。
  • 如果噪声是随机的,Noise model free methods是更合适的,更容易实现,性能下降是由于过拟合,一些


  • 如果没有干净的数据子集,Robust losses 或者 Regularizers是适当的选择,因为他们对待所有的sample是相同的。
  • 元学习技术可以在clean subset of data中使用,因为它们可以很容易地适应来利用这个子集。


  • 2020-ICML - Improving Generalization by Controlling Label-Noise Information in Neural Network Weights [论文] [代码]
  • 2019-ICML - Confident Learning: Estimating Uncertainty in Dataset Labels. [Paper] [Code]
  • 2019-NIPS - Noise-tolerant fair classification. [Paper][Code]
  • 2019-ICCV - Symmetric Cross Entropy for Robust Learning With Noisy Labels. [Paper][Code]
  • 2019-CVPR - Learning to Learn from Noisy Labeled Data. [Paper] [Code]
  • 2018-ECCV - CurriculumNet: Weakly Supervised Learning from Large-Scale Web Images. [Paper] [Code]
  • 2018-CVPR - CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise. [Paper] [Code]
  • 2020-CVPR - Noise-Aware Fully Webly Supervised Object Detection. [Paper][Code]
  • 2019-CVPR - Probabilistic End-to-end Noise Correction for Learning with Noisy Labels[Paper][Code]

