论文来自UC伯克利大学。论文关注的是机器学习模型面对攻击性数据时的防御表现,也就是模型的鲁棒性。 论文中用生成式的方法修改MNIST和CIFAR-10中的图片,形成对抗性的样本,目的是让分类器对修改后的样本产生误判,借此对分类器的所用防御方法的效果进行评价。
摘要
正在进行的研究提出了几种方法来保护神经网络免受对抗性例子的攻击,其中许多研究者已证明是无效的。 我们问是否可以通过组合多个(可能是较弱的)防御来创建强大的防御。 为了回答这个问题,我们研究了遵循这种方法的三种防御方法。 最近提出了其中两种防御措施,这些防御措施有意组合了旨在协同工作的组件。 第三防御结合了三个独立防御。 对于这些防御的所有组成部分以及联合防御本身,我们证明了自适应adversary可以成功创建具有低失真的对抗样本示例。 因此,我们的工作表明,防御力弱的集合不足以为对抗性例子提供强有力的防御。
1引言
神经网络在广泛的应用领域中都取得了出色的性能。 特别是,他们在图像识别[10]和语音识别[29]领域的数据集上显示出与人类相当或更好的准确性。 但是,最近的工作表明,深度学习模型容易受到对抗性示例的影响:类似于正确分类的输入,但分类错误的输入[28]。 对神经网络其他应用的研究还遇到了对抗示例,涉及图像分类以外的其他任务,包括强化学习中的深层策略和生成模型[15、14、12、2]。 对抗性示例尤其在诸如自动驾驶汽车等对安全至关重要的自动驾驶系统中构成严重威胁。 最近的工作表明,即使受到有损拍照渠道的影响,对抗性例子仍然存在[17]。
制定有效的防御措施来对抗对手是一个重要的话题。 尽管进行了许多尝试[27、7、9、21、8、6、5、11],但迄今为止,还没有强有力的防御来对抗对手。
在本文中,我们提出一个问题:如果我们将多个防御系统整合到对抗性示例中,那么联合防御系统会比原始的单个防御系统明显强大吗? 如果这样做的话,那么构建对抗对手的强大防御的一种可能的方法是将许多防御结合在一起,每种防御各自仅略微有效,但结合起来却很强大。 这是设计针对对抗性示例的有效防御的重要问题。 据我们所知,我们是第一个系统地调查这个问题的人。
为了回答这个问题,我们研究了三个综合防御实例。 首先,我们研究了两个最近提出的防御措施,即特征压缩[30]和专家+1集成方法[1],每种方法都融合了多种防御措施以弥补彼此的弱点。 请注意,特征压缩和专家+1合奏经过明确设计,旨在将效果良好的组件防御结合在一起,以期创建更强大的防御。
为了在更广泛的范围内研究集合防御问题,我们还评估了三个独立的,相互兼容的检测机制的集合[6、21、5]。 这代表了一种结合了没有设计为一起使用的防御的方法。
引入这些防御的工作表明,它们可以有效地检测针对其应用的分类器模型生成的攻击。 但是,我们发现这些防御措施的组成部分或合并的防御措施都无法对意识到防御措施的攻击者有效。
我们通过针对防御的新攻击来评估这些防御。 我们的攻击能够以低失真击败所有上述防御。 由此得出的结论是,将弱小的防御措施(甚至似乎可以很好地发挥作用)相结合,不足以防御自适应攻击者。
贡献
我们做出以下贡献:
•我们对特征压缩[30]进行了有效的攻击,包括单独的压缩方法和组合的对抗性示例检测方案。
•我们对专家团的防御进行了有效的攻击[1]。
•我们对最近提出的探测器集合进行有效的攻击。 我们表明,对抗性示例可以绕过一组检测器,而其失真几乎与最强的单个检测器所需的一样少。
•我们的结果表明,与整体中包含的每个单独组成部分相比,集成式防御没有提供更多的对抗示例性弹性。 这意味着防御力弱的整体不足以为对抗性例子提供强有力的防御。
•我们的评估表明,自适应对抗性示例可跨多个防御或检测提议转移。 这种现象可能提供了一个理由来解释为什么集合不是建立对抗对抗示例的防御机制的有效方法。
本文的其余部分安排如下:在第2节中,我们提供问题陈述和背景信息; 在第3节中,我们描述了针对单个特征压缩防御组件及其复合防御的攻击; 在第4节中,我们描述了针对专家团防御的攻击结果; 在第5节中,我们描述了在组合了多个独立提议的检测网络的复合防御上的攻击结果; 我们在第6节中总结了我们的发现。
2概述
我们从背景信息的概述开始,然后定义我们使用的威胁模型以及实验的问题陈述和设置。
2.1背景:对抗示例
最近的工作指出,深度学习模型容易受到对抗性示例的攻击:这些模型对输入的错误预测与正确预测的输入略有不同[28、7、23、26]。
具体来说,假设我们有一个模型参数为θ的分类器F。 令x为具有相应地面真实性预测y的分类器输入。 对抗示例x ∗是输入空间中的某个实例,该实例以某个距离度量d(x,x ∗)接近x,但导致Fθ产生错误的输出。 在这里,我们仅考虑那些满足Fθ(x)= y的x。
先前的工作考虑了两类对抗性例子。 首先,一个无针对性的对抗示例是实例x ∗,它使分类器产生任何不正确的输出:Fθ(x ∗)6 = y。 其次,一个有针对性的对抗示例是x ∗,它使分类器产生特定的错误输出y ∗:Fθ(x ∗)= y ∗,其中y 6 = y ∗。
在先前的工作中已经提出了几种方法,包括快速梯度符号方法(FGSM)[7],快速梯度方法[19],基于雅可比的显着性图方法(JSMA)[26],Deepfool [22]和优化- 基于方法[28,3,19]。
2.2威胁模型
在这项工作中,我们假设对手具有模型的全部知识,包括模型体系结构,参数以及模型中使用的防御策略。
先前的工作表明,这种假设通常可以放宽[7,24,25],但是为简单起见,我们假定此更强的威胁模型。
在这些白盒攻击者中,我们考虑了两种能力的对手。
静态对手。 静态对手是攻击者,他不知道可能采取任何防御措施来保护模型免受对抗性示例的攻击。 静态对手可以使用现有方法生成对手示例,但不会针对任何特定防御量身定制攻击。
适应性对手。 适应性对手是知道模型中使用的防御方法并可以相应地适应攻击的攻击者。 这绝对是比静态对手更强大的对手。 在本文中,我们认为这是一个更强大的对手。
2.3问题陈述
为了提高针对对抗性示例的模型的鲁棒性,现有技术研究了两个方向。
第一个方向试图在对抗示例上产生正确的预测,同时又不损害合法输入的准确性[27、7、9]。 相反,另一个方向(较新的方向)则尝试检测对抗性示例,而不会引入过多的误报。 在这种情况下,模型可以拒绝实例,并拒绝将其检测到的实例分类为对抗对象[21、8、30、1]。
在本文中,我们提出一个问题:如果我们将多个防御系统整合到对抗性示例中,那么合并的防御系统是否会比每个单独的原始防御系统明显强大? 如果这样做的话,那么构建对抗对手的强大防御的一种可能方法是将许多防御结合在一起,每个防御都仅略微有效,但结合起来却很强大。 这是设计针对对抗性示例的有效防御的重要问题。
据我们所知,我们是第一个系统地调查这个问题的人。
考虑防御。 在本文中,我们考虑了试图将多个(某种程度较弱)防御组合在一起以构建更大的强大防御的防御。 特别是,我们研究了整体防御策略的三个实例。 第一个和第二个是特征压缩[30]和专家+1集成方法[1],两者都通过构造来采用这种方法。 这些防御措施是由旨在一起使用的组件构成的。 他们的作者表明,这些防御措施可以有效地检测出静态对手生成的低扰动对手实例。
第三,为了更广泛地研究整合防御的有效性,我们将许多未设计为与任何其他探测器结合使用的探测器合并在一起。 特别是,作为示例演示,我们将三个独立的检测机制[6、21、5]集成在一起以构建一个检测机制。
对于这些防御策略中的每一个,我们都提出了攻击方法以生成对抗性示例,作为针对单个组件防御(适用时)以及复合防御策略的自适应对手。 我们使用这些攻击方法来评估每个组件防御和复合防御:如果我们的方法成功生成了对抗示例,则意味着自适应对手可以击败防御。 为了衡量与组件相比组合防御的强度,我们比较了欺骗每个组件所需的失真程度(使用相同的优化方法)。
2.4实验装置
数据集和模型。 为了评估不同防御策略的有效性,我们使用了两个标准数据集MNIST [18]和CIFAR-10 [16]数据集。
对于这两个数据集,我们从测试集中随机抽取100张图像,过滤掉未正确分类的示例,并根据正确分类的图像生成对抗示例。 在评估每种防御策略时,我们分别使用其论文中描述的相同模型架构[30、1、6、21、5]。
MNIST上的对抗示例往往比自然图像具有更高的失真。
对抗示例生成方法。 在本文中,我们使用基于优化的方法来生成对抗性示例[3],这被证明对于寻找失真较小的对抗性示例是有效的。
在较高级别,攻击使用优化器来最小化损失函数:
loss(x0)= kx0 − xk2 2 + c·J(Fθ(x0),y)在这里,Fθ是训练过的分类器的一部分,其输出对数矢量,并且J根据对数和标签计算出一些损失 y,要么是针对非目标攻击的地面真相标签,要么是针对目标攻击的目标标签。
常数c是一个超参数,可调整失真和错误分类之间的相对权重。 我们省略了设计选择的详细信息,并向读者推荐了原始论文[3]。
失真度的测量。 除非另有说明,否则我们将测量对抗性示例和原始输入之间的失真作为其距离的L2范数。 形式上,d(x ∗,x)= p∑i(xi ∗-xi)2。 输入图像的每个尺寸均按比例缩放为[0,1],即0≤x∗ i,xi≤1。
3对特征压缩的自适应攻击
在本节和下一部分中,我们将研究整体防御策略,这些策略是有意构造为具有组件防御的,这些组件防御可以协同工作来检测对抗性示例。 我们研究的第一个防御是特征压缩,这是徐等人提出的。 [30,31]。
背景:功能压缩防御。
为了执行特征压缩,在将图像传递到分类器之前,需要先通过“压缩”过程生成较低保真度的输入图像。 徐等。 提出了两种压缩方法:将颜色深度减少到更少的位,以及使用中值滤波器在空间上平滑像素。 根据他们的论文,这两种压缩方法可以很好地协同工作,因为它们解决了对抗性示例中使用的两种主要摄动:减少色彩深度消除了许多像素的微小变化,而空间平滑消除了少数像素的较大变化。
为了检测对抗性例子,Xu等。 提出了一种将两种压缩方法结合在一起的系统。
首先,系统在图像的三个不同版本上运行分类器:原始图像,色彩深度减小版本和图像的空间平滑版本原始图像。 然后,它比较这三个分类器输出上的softmax概率向量。 输入的L1得分是三者中任何对softmax概率向量之间的最高L1距离。 它会将L1分数超过阈值的输入标记为对抗。
在他们的实验中,Xu等。 表明MNIST和CIFAR-10分类器在压缩输入上是准确的。
在静态对手使用FGSM [7]和JSMA [26]生成的对抗示例中,他们显示,他们的检测器在具有相同比例的良性示例和对抗示例的测试集上可以达到99.74%的准确度。 他们还表明,仅压缩输入就可以防止84–100%的对抗示例(正确分类)。 最近,徐等人。 结果表明,使用输入的原始版本和空间平滑版本(不包括色深降低版本)的简化检测器,对于使用多种形式的静态对手,在MNIST上的整体检测精度为98.80%,在CIFAR-10上的整体检测精度为87.50% 卡利尼和瓦格纳的袭击[31]。
我们的方法和结果摘要。 我们证明了特征压缩在两个阶段都不是有效的防御措施。 首先,我们证明了自适应攻击者可以构造一个对抗示例,并通过每种方法(颜色深度减少和空间平滑)对其进行压缩之后仍然保持对抗。然后,我们使用此方法来构造与和相同分类的对抗示例。 结果表明,联合检测方法对自适应攻击者无效。
3.1规避单个特征压缩防御组件在这些实验中,我们评估了对抗性示例是否对每个单个特征压缩防御组件都具有鲁棒性,即分别在每个单个特征压缩过程(颜色深度减少和空间平滑)之后对抗性示例是否仍然具有对抗性。 这些实验攻击了组合特征压缩检测方案的组成部分。 进行这种攻击是击败组合检测方案所必需的,在压缩方案中,将压缩图像的预测标签概率相互比较。
3.1.1避开色彩深度减少防御压缩图像的第一种方法是Xu等人。 建议是降低色彩深度。 此方法将每个图四舍五入:图1:MNIST上颜色深度减少(至1位)的对抗性示例。 第一行:原始图像。 第二排:对抗性地打扰。 从左到右的失真:1.49、2.61、2.63、3.83、3.89、3.90。
输入中的取值为2b,它们在相同范围内分布均匀,这就是我们所说的减少到b位。
攻击方法。 我们使用第2.4节中描述的方法来生成对抗示例,这些示例对降低色彩深度具有鲁棒性。 在优化过程的每个步骤之后,可以从优化器获得一个中间图像(从原始图像中获取)。
我们检查此中间图像的色深较小的版本是否具有对抗性。 我们多次运行优化,每次都用原始图像的随机扰动初始化优化,以便它探索不同的优化路径。 对于每个原始图像,在该原始图像的所有生成的成功对抗示例中,我们保留到原始图像的L2距离最低的成功对抗示例。
尽管此方法在我们的实验中成功生成了低失真的对抗示例,但不能保证在一般情况下该方法应能成功。
我们在附录A中提供了一种替代方法,该方法产生了失真更高的示例,但在其他情况下可能会有用。
对MNIST的攻击结果。 我们估计颜色深度减少到1 – 7位。 在Xu等人评估的最强防御技术(将色彩深度降低到1位)上,我们成功生成了所有原始图像的对抗示例,平均失真为3.86。 图1显示了这些对抗示例的示例。 表1总结了其他位深度的结果。 请注意,对于没有任何色彩深度减少(保留原始的8位深度)的系统,我们发现平均失真为1.38的对抗示例。 将色彩深度减少到更少的位数会使系统对较小的变化不太敏感,这需要较大的失真; 但是,失真仍然很小。
对CIFAR-10的攻击结果。 我们将色彩深度降低评估为3位,Xu等人。 推荐为好
图7:MNIST专家+1的对抗示例。 从左到右的失真:0.587、0.659, 0.808、2.49、2.51、2.51。 布局与图1相同。 结果表明,生成的对抗示例中的失真是不可察觉的。 概要。 结合了两种压缩方法的检测方案并不总是比最强的成分(降低色彩深度)更强。 即使在MNIST上,改进也很低,因为MNIST特别适合于特征压缩,图像为黑白图像(颜色深度减少后变化不大),并且具有相同颜色的大而连续区域(图像空间平滑后变化不大)。 在CIFAR-10上,与单独的色彩深度降低防御相比,组合攻击所需的失真更少。
4Evading ensemble of specialists
我们研究了结合了多要素防御的第二种防御,即由Abbasi和Gagne [1]提出的专家组。 ´
背景:ensemble of specialist defense。防御包括一个通才分类器(在所有类别之间进行分类)和一个专家集合(在各个类别的子类别之间进行分类)。 专家将类别的子集分类如下。 其中C是任务中所有K个类的集合,对于每个类i,令Ui是在对抗样本中最常与i混淆的类集合。 要计算Ui,Abbasi和Gagne´,请为每个类别i选择由无目标的FGSM攻击引起的错误分类的前80%。 此外,定义了K个其他子集: \ Ui是Ui的补集。 对于每个j = 1,…,2K,在包含属于Uj中类别的图像的数据集的子集上训练专家分类器Fj,以仅将输入图像分类为Uj中的类别。 此外,训练了通才分类器可以将输入图像分类为的类。集合中的每个分类器都可能会受到基本对抗样本的影响,但是建议的防御假设每个专家都可以检测到一些特定的 攻击,因此攻击者无法同时欺骗所有专家和通才。 防御将它们结合起来共同检测一般的对抗样本。
为了对输入进行分类,系统首先检查对于任何i类,通才分类器和所有可以对i进行分类的专家都同意输入属于i类。如果存在这样的类,请注意,最多只有一个类能够获得通才的投票,它必须是唯一的。 在这种情况下,系统输出i作为类。 否则,至少一个分类器对输入进行了错误分类,并且该预测遵循集合中所有分类器的多数表决。
Abbasi和Gagne [1]发现,以这种方式构造的集成系统成功地降低了系统对静态攻击者使用FGSM [7],DeepFool [22]生成的对抗样本的信心(投票给获胜类的投票分类器的分数) 和Szegedy等人的方法[28]。 他们得出的结论是,分类系统可以通过这种方式使用各种专家的集合,并将低置信度的示例检测为对抗对象。
攻击方法。 在此实验中,我们评估了Abbasi和Gagne的专家+1小组对抗自适应攻击者的有效性。 我们考虑了以下情况:用户向系统提供图像,并且系统使用专家+1集成对图像进行分类或将其拒绝。
我们尝试创建有针对性的对抗示例,从中随机选择目标类别。 对于每个原始图像,我们的目标是创建一个对抗示例,由通才分类器和所有适用的专家同时将其分类为目标类别,从而最大程度地确保图像不是对抗性的。 我们使用第2.4节中的过程生成对抗性示例。 我们修改了损失函数以支持多个分类器:
我们仅对MNIST评估此防御。 阿巴斯(Abbasi)和加涅(Gagne)也提议为CIFAR-10辩护
实验中描述的架构准确性低,即使在良性图像中也导致可信度低。
对MNIST的攻击结果。
我们成功地为所有原始图像生成了对抗示例,这些示例的平均失真为2.50。 图7在第二行显示了这些对抗示例的样本。 这些对抗性示例被通才和所有适用的专家归类为目标标签,从而使它们具有最高的置信度。 与非集成MNIST分类器相比,所需的失真高81.2%。
尽管此辩护将专家定义为专注于非针对性对抗示例引起的常见错误分类,但在检测常见错误分类方面仍然较弱。 在这些示例中,有33个以原始图片的地面真实情况类经常与之混淆的类为目标。 这些图像的平均失真为1.86,低于整个图像集的平均值。
总结。 专家+1集成不能有效确保对自适应攻击者生成的对抗示例的低置信度。 自适应攻击者可以成功生成具有较小失真的对抗示例,这些示例被一致地分类为目标类别,从而避免了对专家+1整体防御的检测。
5Evading ensemble of detectors
在前面的部分中,我们研究了有意构造为可一起使用的防御系统。 在Xu等人的工作中,降低色彩深度旨在去除许多像素的细微变化,而进行中间平滑处理则去除了几个像素的粗细变化。 同样,阿巴斯(Abbasi)和加涅(Gagne)建议一起使用通用分类器和专家分类器的集合。
没有其他方法,这种方法将无用。
为了更广泛地研究集合防御的有效性,我们将许多最近提出的探测器合并在一起,这些探测器并未设计为与任何其他探测器结合使用。 为了简单起见,我们仅考虑将检测器应用于固定分类网络,因此研究以下方案:
•Gong等。 提出使用对抗训练来检测对抗实例[6]。 给定原始模型,在训练数据上生成对抗性示例。 然后,训练一个新的分类器,以将原始训练数据与对抗数据区分开。
表3:为给定源防御构建对抗示例的概率也使CIFAR-10上的给定目标防御受骗 。 针对Metzen等人的防御。 转移给其他人的可能性最大,Feinman等人。 最低的。
•Metzen等。 构造类似的方案,但是它们不是使用原始图像作为检测器的输入,而是在网络的内部卷积层上训练[21]。
•Feinman等。 检查神经网络的最终隐藏层,并通过使用高斯核训练密度估计[5],发现对抗性示例可与原始图像分离。
已知使用Carlini和Wagner的攻击时,这些方法只会使鲁棒性略有增加,即,在生成带有检测器的对抗示例时,相对于没有检测器时,只会稍微增加所需的失真[4]。 鉴于此,我们现在检查构造这些防御的整体是否提供额外的鲁棒性。 为了整合这些防御,我们运行每种检测方法,并在三个检测器中的任何一个检测到的情况下,将输入作为对抗性输入。
攻击方法。 我们仅在CIFAR-10上执行此实验,因为Metzen等人的防御系统是针对CIFAR-10的。 我们能够为所有防御独立构建对抗性示例。 为了一起击败所有三个防御,我们构造了一个新的分类器G(·),以便直接使用2.4节中的损失函数可以构造对抗性示例。
我们使用与[4]相同的符号。 令F(·)是N个类别的分类器,而softmax(F(·))i是类别i的概率(因此F(·)i是对数)。 令{Dj(x)} Jj = 1为J个不同的检测器之一,以使检测器Dj将对象x报告为对抗状态的概率为Sigmoid(Dj(x))(即,Dj返回对数)。 我们报告说,如果任何检测器的概率大于一半,则该实例是一个对抗性实例。 也就是说,如果对于任何j,sigmoid(Dj(x))> 1 2,或者Dj(x)> 0。
当我们整合这三个防御时,我们设置J = 3并定义D(x)= maxj Dj(x),以便如果三个检测器中的任何一个都执行D(x)报告对抗性(即D(x)> 0)。
鉴于此,我们使用与Carlini和Wagner之前在这些设计上的工作相同的G(·)结构防守[4]。 函数G(·)返回N + 1个类(新类保留给对抗性示例使用),以便当x不是对抗性时,arg maxi G(x)i = arg maxi F(x)i,而arg maxi G(x )= N + 1(当x为对抗性时)。 为此,[4]专门定义G(x)i = DF(x)i如果i≤N(D(x)+1)·max j F(x)j如果i = N + 1 对于给定的实例x,Dj(x)> 0(对于任何分类器j),我们将具有arg maxi G(x)i = N +1,因为我们将一个大于1的值乘以其他输出对数的最大值。 相反,如果arg maxi G(x)i 6 = N +1,那么我们必须使D(x)<0暗示所有检测器报告实例是良性的。
因此,通过在G上构造对抗性示例以使目标类别不是N + 1,我们可以在F上构造任何检测器都未检测到的对抗性示例。
在CIFAR-10上的攻击结果
在不安全的网络上构造对抗性示例所需的L2失真为0.11。 在具有三个防御的网络G(·)上构建对抗性示例,会使失真增加到0.18,增加了60%。 但是,这种失真仍然是不可察觉的。
对抗示例在不同检测器之间的可传递性。
为了理解将这些防御措施组合在一起不会显着提高健壮性的原因,我们假设对抗性示例的可传递性属性[28、7、24、19]简化了攻击者的任务。 为了验证这一点,我们在三个防御中的每一个上分别构造了对抗性示例,并检查了这些示例是否欺骗了其他两个防御的可能性。 表3包含此数据。 由此可见,为什么构造这些弱防御的集合并没有比每个独立防御明显更安全:愚弄一个探测器的敌对例子也常常愚弄另一个探测器。
6.结论
我们在本文中的目标是研究是否可以组合多个(可能是较弱的)防御来创建强大的防御。 为了实现这一目标,我们研究了将多个防御要素组合在一起的三种防御措施:设计了两种新近提出的防御措施,其理由是为什么它们的组件应该很好地协同工作;另一种结合了不相关的新提出的探测器。
我们证明了自适应对手可以生成具有低失真的对手示例,从而使我们评估的所有防御和组件都蒙混了。 结合了两种压缩输入图像的方法的特征压缩检测方案最多比单独的色彩深度减少略强。 结合了多个专家分类器的专家+1集成稍微增加了所需的失真,但是失真仍然很小。 我们还表明,结合最近提出的检测机制的集合也是无效的。 具体而言,我们的结果表明,对抗性示例在各个检测器之间转移。
在评估对抗性示例的防御措施时,我们的工作提供了一些重要的教训:
1)应该使用强力攻击来评估防御措施。 例如,FGSM可以快速生成对抗性示例,但是当其他基于迭代优化的方法可以成功时,FGSM可能无法生成成功的攻击。
2)应该使用自适应对手来评估防御。 重要的是要开发对知道使用的防御机制的攻击者而言安全的防御。
最后,我们的结果表明,将弱防御结合起来并不能显着提高这些系统的鲁棒性。 制定有效的防御措施来对抗对抗样本是一个重要的话题。 我们希望我们的工作为该领域的未来工作提供启发。
参考
[论文笔记]集成方法提高神经网络的对抗鲁棒性
学界 | Ian Goodfellow推荐论文:增加机器学习的防御就能解决鲁棒性问题?天真!