分类集成 - 集体对抗训练: 攻击与防御-ICLR2018 - 《ML学习笔记》

abstract
对抗样本是设计用来愚弄机器学习模型的扰乱输入。对抗训练将这样的例子注入训练数据中，以增强健壮性。为了将这项技术扩展到大型数据集，我们使用快速的单步方法，最大化模型损失的线性近似。我们证明这种形式的对抗性训练收敛到一个退化的全局最小值，其中靠近数据点的小曲率伪影模糊了损失的线性近似。因此，模型学习产生微弱的扰动，而不是防御强的扰动。因此，我们发现对抗性训练仍然容易受到黑箱攻击的影响，在黑箱攻击中，我们将不设防模型计算出的干扰，以及一种强大的新颖的单步攻击，通过一个小的随机步骤逃避输入数据的非平滑附近。我们进一步介绍了集体对抗训练，这是一种通过从其他模型转移的扰动来增强训练数据的技术。在 ImageNet 上，集体对抗训练产生了对黑匣子攻击具有强鲁棒性的模型。特别值得一提的是，我们最强大的模型赢得了 NIPS 2017年首轮防御对抗性攻击比赛的胜利。然而，随后的工作发现，更精心的黑匣子攻击可以显著增强可传输性，并降低我们的模型的准确性