Targeted Supervised Contrastive Learning for Long-Tailed Recognition

现实世界的数据通常存在严重的类别不平衡问题，即遵循长尾分布，这会导致训练过程被拥有绝大多数样本的类别所主导，导致小众类别的决策边界受影响。

监督对比学习受不佳的均匀性的制约，体现在特征空间内，小众样本的决策边界不明晰。为了解决这个问题，我们提出了targeted supervised constrastive learning，提升超球面中特征的均匀分布。

均匀性和这样的一个假设有关：在理想情况下，如果监督对比学习学得足够好，那么不同类别在特征空间中的embedding，应该均匀地分布在超球面上。均匀性将在特征空间中最大化类间距离，因此，均匀性也是模型泛化能力的一个体现。

但是，当样本类别不均匀时，训练过程天然地会把更多的权重放在多数类别的损失上。因此，类别在特征空间中的分布不再均匀。

一种改进的方式是对长尾类别的样本做过采样，或者对loss进行加权，但这两种方式都是以损失头部类别embedding效果为代价的。

在本文中，为了避免特征空间被头部类别占据造成分布不均匀，我们提前为每个类别的中心生成了一个最佳位置。我们称这些均匀分布的类中心为targets。

TSC是一种旨在提升特征空间分布均匀性的训练框架。通常，拥有更少量训练数据的长尾类别，在特征空间中的表示会和其余的长尾类别混在一起，决策边界不明晰。因此，我们提前将每个类中心在特征空间中的位置定义计算出来，模型则鼓励每个类别下的样本尽量逼近其类别中心。