abstract
对抗样本是设计用来愚弄机器学习模型的扰乱输入。对抗训练将这样的例子注入训练数据中,以增强健壮性。为了将这项技术扩展到大型数据集,我们使用快速的单步方法,最大化模型损失的线性近似。我们证明这种形式的对抗性训练收敛到一个退化的全局最小值,其中靠近数据点的小曲率伪影模糊了损失的线性近似。因此,模型学习产生微弱的扰动,而不是防御强的扰动。因此,我们发现对抗性训练仍然容易受到黑箱攻击的影响,在黑箱攻击中,我们将不设防模型计算出的干扰,以及一种强大的新颖的单步攻击,通过一个小的随机步骤逃避输入数据的非平滑附近。我们进一步介绍了集体对抗训练,这是一种通过从其他模型转移的扰动来增强训练数据的技术。在 ImageNet 上,集体对抗训练产生了对黑匣子攻击具有强鲁棒性的模型。特别值得一提的是,我们最强大的模型赢得了 NIPS 2017年首轮防御对抗性攻击比赛的胜利。然而,随后的工作发现,更精心的黑匣子攻击可以显著增强可传输性,并降低我们的模型的准确性