reject ICLR2018
本文对集成神经网络对抗对抗样本的有效性进行了实证评价。
1.本文对现有文献的补充很少: 已经有关于“集体对抗训练”的详细研究
2.本文的实验评估仅限于 MNIST 和 CIFAR (这些数据集的结果不一定能很好地传递到更高维度的数据集,如 ImageNet)。
3.此外,评论者还指出了本文实验装置中的几个不足之处

1 INTRODUCTION

深度学习已经成为许多机器学习问题的最先进的方法,如分类。最近有研究表明,深度学习非常容易受到敌对干扰。以自动驾驶汽车的摄像系统为例,微小的对抗扰动可能会导致系统在重要任务中出错,例如对交通标志进行分类或检测行人。因此,为了在不考虑安全问题的情况下使用深度学习,需要一个适当的防御策略。我们建议使用集合方法作为对抗对抗扰动的防御策略。我们发现导致一个模型错误分类的攻击并不意味着执行相同任务的其他网络也存在同样的问题。这使得集成方法成为对抗对手攻击的一种有吸引力的防御策略。我们的经验表明,对于MNIST和CIFAR-10数据集,集成神经网络不仅能够提高测试精度,而且能够提高分类器对对抗样本的鲁棒性

近年来,深度神经网络(DNNs)在从计算机视觉(Krizhevsky et al., 2012;LeCun等人,2015)到语音识别(Hinton等人,2012;Dahl等人,2012年)。一些可以用DNNs解决的应用从安全角度来说是敏感的,例如用于检测交通标志或行人的自动驾驶汽车摄像系统(Papernot et al., 2016b;Sermanet & LeCun, 2011)。最近,有研究表明DNNs对对手来说非常脆弱(Szegedy et al., 2013;Goodfellow等人,2014;论文编号:2016a;b)。对手在系统的输入上产生某种噪声来误导它的输出行为,从而产生不受欢迎的结果或错误分类。对抗性干扰是精心选择的,以使肉眼很难(如果不是不可能的话)检测到(见图1)。攻击发生在DNN训练完成后。此外,它已被证明的具体结构款不需要为了误导系统称为一个可以发送输入未知系统,以记录其输出训练一个新的款,模仿其行为(Papernot et al ., 2016 b)。因此,在这份手稿中,假定DNN及其所有参数都被对手完全了解。
文献中出现了许多攻击神经网络的方法。一些最著名的是FGSM(Goodfellow等人,2014年)及其迭代扩展(Kurakin等人,2016年),DeepFool (moosavii - dez傻瓜等人,2016年),基于jacobian的显著图攻击(Papernot等人,2016c)和L-BFGS攻击(Szegedy等人,2013年)。这表明,有必要构建自身能够抵御任何对抗性干扰的神经网络。
对抗敌人攻击的新方法越来越多地出现在文献中。其中一些防御方法是用不同种类的对抗扰动训练数据训练网络(Goodfellow等人,2014;Papernot等人,2016c),使用蒸馏来降低扰动的有效性(Papernot等人,2016d),或应用去噪自编码器对DNN使用的数据进行预处理(Gu & Rigazio, 2014)。还注意到可以检测到对抗性攻击(Metzen等人,2017;Feinman等人,2017),这些检测系统再次易受敌方攻击。据我们所知,没有任何一种方法可以可靠地防御或检测所有类型的对抗性攻击。
在这篇手稿中,集成方法被用来获得一个分类系统,对对抗的扰动是更稳健的。术语集成方法是指构造一组分类器,用于根据预测的加权或非加权平均值对新数据点进行分类。
文献中引入了许多集成方法,如贝叶斯平均法、Bagging (Breiman, 1996)和boosting (Dietterich et al., 2000)。这些方法经常赢得机器学习比赛,例如Netflix奖(Koren, 2009)。在对抗语境中使用分类器集合的初步结果可在(Abbasi & Gagne, 2017;他等人,2017年)。然而,据我们所知,这是第一份从经验上评估集成方法对对抗扰动的稳健性的手稿。
使用集合方法作为防御对抗扰动的一个优点是,它们也增加了对未扰动测试数据的准确性。然而,在大多数应用程序中,扰动输入可以被认为是异常。因此,我们希望在未受干扰的测试数据上获得最先进的结果,同时使模型在对抗对抗攻击时更加健壮。另一个优势是,整体的方法可以很容易地结合其他防御机制进一步提高鲁棒性与敌对的扰动(见表4)。然而,成本的优势来增加计算复杂度和内存需求与系综分类器的数量成正比。
本文的内容如下:在第二节中,简要介绍了产生对抗性扰动的几种方法。第三部分描述了在这份手稿中提出的防御策略。
在第4节中,我们将在MNIST和CIFAR-10数据集上对上述方法进行测试,并与文献中出现的其他防御策略进行比较。最后,在第5节给出了结论。

2 ADVERSARIAL ATTACK

1)FGSM
2)BIM

3 ENSEMBLE METHODS

集成方法被广泛用于改进监督学习中的分类器(Dietterich et al., 2000)。其思想是构建一组分类器,用于根据预测的加权或非加权平均值对新数据点进行分类。为了使集合优于单一分类器,它必须既准确又多样(Hansen & Salamon, 1990)。如果一个分类器比随机猜测更好,那么它就是准确的;如果不同的分类器对新数据点产生不同的错误,那么一组分类器就是不同的。
正如预期的那样,当对新数据点执行对抗性扰动时,不同的分类器在这些点上的表现非常不同。因此,我们得出结论,多样性的对抗摄动是给出的。此外,对于小 &gt的对抗性扰动;0,绝大多数分类器是准确的。换句话说,对于任何一个小的 >0,我们无法找到将大部分分类器变成不准确分类器的对抗性攻击。
在第4节中,使用了以下的集成方法。注意,所有方法都使用模型参数的随机初始化。
(i)第一种方法是用相同的网络结构,但随机初始权值训练多个分类器。这就产生了具有不同最终权重的不同分类器(Kolen & Pollack, 1991)。
(ii)第二种方法是用不同但相似的网络架构训练多个分类器,以确保得到一组更加多样化的分类器。也就是说,在一个分类器中使用额外的过滤器,或者向另一个分类器添加额外的卷积层。
(iii)第三,训练数据使用Bagging (Breiman, 1996)。Bagging一词来源于bootstrap聚合,它包括从m个数据点的训练数据集中抽取m个样本并进行替换。每一个新的数据集都称为引导复制。平均来说,每一个都包含63:2%的训练数据,其中许多数据点在bootstrap复制中重复。使用不同的自举复制作为集成中每个分类器的训练数据。
(iv)最后一种方法是在训练数据中加入一些小的高斯噪声,使所有的分类器在相似但不同的训练集上进行训练。请注意,在训练数据中加入高斯噪声也会使每个分类器在对抗对抗扰动时更有鲁棒性。
一旦训练了一组分类器,它就通过让每个分类器为一个标签投票来进行预测。更具体地说,该预测值被选择为最大化集合中分类器输出概率平均值的标签。
为了利用第2节的方法对网络进行攻击,采用了梯度rxJ(θ;x;y)必须计算。然而,获得集成的梯度需要计算其每个分类器的梯度。然而,以下两种方法被用来估计一个合奏的梯度,在本手稿的其余部分被称为Grad. 1和Grad. 2:
Grad. 1使用rxJ(θi;x;y)的第i个分类器。这显然不是一个整体的正确梯度。但问题是,这种梯度的攻击是否已经以类似的方式误导了集合中的所有分类器。
Grad. 2计算梯度的平均值n1 Pi rxJ(θi;x;y)从所有分类器在合奏。
这两种梯度对攻击集合体的效果的比较可以在第一部分中找到

4实验

在本节中,第3节的集成方法在按单位区间缩放的MNIST (LeCun et al., 1998)和CIFAR-10 (Krizhevsky & Hinton, 2009)数据集上进行了经验评估。所有实验都是在10个分类器的集合上进行的。注意,这样做是为了具有可比性。也就是说,在某些情况下,使用较少的分类器就可以达到最好的性能,而在其他情况下,使用更多的分类器可能会改善结果。
实验结果的总结见表2,相应的可视化见图2。
image.png
image.png
image.png

对比表2所示的精度。比较的是FGSM上的MNIST(顶部一行)和CIFAR-10(底部一行)数据集(左列)和BIM(右列)攻击。Grad1单指基于Grad的袭击。在单一分类器,Grad1系综是指基于Grad。1攻击乐团,Grad。2套指攻击系综分类器基于Grad.2,没有攻击单指单分类器在平静的数据,最后没有攻击合奏指系综分类器在平静的数据。

表4中给出了ensemble与其他防御方法的比较以及那些使用ensemble的防御方法的组合。下面所有的FGSM扰动是在MNIST上 = 0:3和CIFAR-10上 = 0:03下完成的。此外,所有BIM扰动在MNIST上使用 = 0:2, α = 0:025和n = 8迭代,在CIFAR-10上使用 = 0:02, α = 0:0025和n = 8。表2和图2中的缩写应按以下方式解释:
兰德。Ini。指随机初始化神经网络的权值,混合。Mod.指的是一个集合中每个分类器的网络结构略有不同,Bagging是指训练数据的bootstrap复制训练的分类器,Gauss noise是指训练数据中加入了小的高斯噪声。每个系综都根据一级和二级的梯度使用FGSM和BIM进行攻击。在表2中,术语Single指的是评估单个分类器。
MNIST
MNIST数据集由60,000个训练数据样本和10,000个测试数据样本组成,样本为黑白编码的手写数字。目标是在0到9范围内对这些数字进行分类。在图1的前两行中可以找到数据集中的一些图像和一些对抗性的扰动。实验中使用表1中的网络架构,用10个epoch进行训练。所有实验结果汇总在表2中。
在未受干扰的测试数据上,分类准确率约为99%。单个分类器和集成分类器之间的差异在百分之一以下。在所有情况下,集成分类器的性能略优于单一分类器。

如果网络受到第2节中描述的方法之一的攻击,这种情况就会发生戏剧性的变化。对单个分类器使用Grad. 1梯度的FGSM攻击,分类率下降到35%-56%左右。集成分类器的精度达到57%-78%,性能显著提高。用Grad. 2中的梯度进行同样的评估,结果表明集成方法仍然获得45%-70%的精度。与Grad. 2相比,Grad. 1的精度更高,因为它只计算一个分类器的梯度。尽管如此,在每一种情况下,集成比单个分类器的表现要好大约7%-22%。
如果使用BIM方法,单个分类器的精度下降甚至更为极端。在这里,准确率可以低至6%左右,只有使用高斯噪声训练的分类器的准确率显著超过10%。该方法对使用Grad. 1的攻击具有较高的准确率,达到65% ~ 92%。此外,集成对基于Grad. 2的BIM攻击更加健壮,正确的分类率为89%-98%。令人惊讶的是,使用Grad. 1的BIM攻击比使用Grad. 2的更成功,因为Grad. 1只攻击整体中的单个分类器。综上所述,集成方法在BIM攻击方面比单一分类器显著高出37%-85%。
聚焦于不同的防御策略,我们观察到使用随机初始化的网络权值以及使用几个类似架构的网络作为一个集成总体上提高了对抗攻击的鲁棒性,与单个分类器相比有很大的提高。在对抗扰动上,Bagging优于前面的两种方法,但在未扰动的测试数据上表现稍差。在训练数据上使用带有小高斯噪声的集合可以获得对抗攻击的最佳防御机制。这可能是由于在训练数据上使用加性噪声已经使集成中的每一个分类器在对抗敌对扰动时更加鲁棒。不好的一面,在所有考虑的集成方法中,增加高斯噪声的训练数据对测试数据的表现最差。然而,这样的组合仍然比MNIST上的所有单一分类器表现更好。
CIFAR-10
CIFAR-10数据集包括飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车10个互斥类的三色组件编码图像的50,000个训练和10,000个测试数据样本。在图1的底部两行可以找到数据集中的一些图像和一些对抗性扰动。在所有的实验中,都使用了表3所示的网络架构,并使用25个epoch对网络进行训练。
总的来说,在MNIST数据集上的观测结果可以通过CIFAR-10上的实验得到验证. 由于后一种数据集对分类的要求更高,在无攻击的情况下,总体分类率已经较低,单个分类器的准确率约为72%-80%,而集成器的准确率则更高,为77%-84%。请注意,文献中有一些网络架构在测试数据上的性能大大优于我们的分类器(Graham, 2014)。
使用Grad. 1方法对单个分类器进行FGSM攻击,其准确率下拉列表为16%-30%。相比之下,使用Grad. 1攻击时,集成系统达到43%-61%的准确率,使用Grad. 1攻击时达到31%-47%的准确率

与其他防御方法进行比较
在本节中,我们将前面的结果与两种最流行的防御方法进行比较:对抗性训练(Goodfellow等人,2014;Papernot等,2016c)和防御蒸馏(Papernot等,2016d)。此外,我们还展示了将这些方法与集合相结合的积极效果。为简单起见,我们只考虑梯度梯度。2当一个系综受到攻击时。
结果如表4所示。在此,该内容应按以下方式解释:
套袋指的是经过套袋训练的套装,形容词。对于对抗训练,Def. distj .对于防御蒸馏,操作符+对于前三种方法的组合,粗体文本对于前三种方法的最佳表现,星号对于包括防御策略组合的最佳方法。
对抗训练(AT)是一种利用FGSM作为原始代价函数正则化的方法
image.png

5结论

随着深度学习作为许多分类任务的最先进方法的崛起,研究人员指出,神经网络非常容易受到敌对性扰动。当神经网络被用于自动驾驶等安全敏感应用时,这尤其成问题。因此,随着对神经网络更有效的攻击方法的发展,人们希望获得对对抗性攻击具有鲁棒性的神经网络。
本文证明了几种集成方法,如随机初始化或装袋,不仅提高了测试数据的准确性,而且使分类器对某些对抗性攻击具有相当大的鲁棒性。我们认为集成方法是sole的防御方法,但将集成方法与其他防御机制(如对抗训练)相结合可以获得更鲁棒的分类器。虽然只测试了简单的攻击场景,但可以预期集成方法可以提高对其他敌对攻击的鲁棒性。