摘要

现实世界的数据通常存在严重的类别不平衡问题,即遵循长尾分布,这会导致训练过程被拥有绝大多数样本的类别所主导,导致小众类别的决策边界受影响。

监督对比学习受不佳的均匀性的制约,体现在特征空间内,小众样本的决策边界不明晰。为了解决这个问题,我们提出了targeted supervised constrastive learning,提升超球面中特征的均匀分布。

均匀性和这样的一个假设有关:在理想情况下,如果监督对比学习学得足够好,那么不同类别在特征空间中的embedding,应该均匀地分布在超球面上。均匀性将在特征空间中最大化类间距离,因此,均匀性也是模型泛化能力的一个体现。

但是,当样本类别不均匀时,训练过程天然地会把更多的权重放在多数类别的损失上。因此,类别在特征空间中的分布不再均匀。

一种改进的方式是对长尾类别的样本做过采样,或者对loss进行加权,但这两种方式都是以损失头部类别embedding效果为代价的。

在本文中,为了避免特征空间被头部类别占据造成分布不均匀,我们提前为每个类别的中心生成了一个最佳位置。我们称这些均匀分布的类中心为targets。

相关工作

对比学习的核心思想是:让正样本之间尽量近,负例之间尽量远。

方法

TSC是一种旨在提升特征空间分布均匀性的训练框架。通常,拥有更少量训练数据的长尾类别,在特征空间中的表示会和其余的长尾类别混在一起,决策边界不明晰。因此,我们提前将每个类中心在特征空间中的位置定义计算出来,模型则鼓励每个类别下的样本尽量逼近其类别中心。