本文发现 Self-Supervised Learning 的方式相比 Active Learning 更加能够节约标记,当给定相同的标记时,Self-Supervised Learning 技术也能够达到更优秀的性能。进而,将 Self-Supervised Learning 和 Active Learning 技术相结合可以得到最优的性能。Active Learning 和 Self-Supervised Learning 性能差距当给定一半的数据集时才消失,这也说明了 Active Learning 存在严重的冷启动问题。

    Active Learning 可以分为 Informativeness、Representativeness 和 Hybrid 三种类型。
    Informativeness 类方法度量模型的不确定性,例如:MC Dropout、期望梯度长度、损失;Representativeness 则考虑增加所选择样本的多样性,例如:Coreset、距离度量,对抗方法。

    一个直觉上的想法:Representativeness 考虑从表示角度找到代表性样本一定程度上可以被自监督学习给替代,Informativeness 则考虑解决的问题本身出发时自监督学习无法替代的,结合 SSL 与 AL 的想法可以认为是一种组合高级 Hybrid 方法,从 SSL 的角度提升了表示性能,从 AL 角度提升了模型对问题的理解。

    Reducing Label Effort: Self-Supervised meets Active Learning [ICCVW'21] - 图1
    实验结果发现:

    • 利用了 Self-Supervised Learning 的 Active Learning 性能在标记预算受限时明显好于不利用 SSL 的 AL。当预算达到了 50% 标记数据的时候,两者才表现出相当的性能。
    • 当使用 SSL 预训练模型时,基线 AL 算法的性能都比不过随机采样来的好,这说明直接将 SSL 与 AL 相结合是不奏效的。