Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack

  • Post author:
  • Post category:其他


对抗攻击的防御模型显著增长,但缺乏实用的评估方法阻碍了进展。评估可以定义为:

在给定迭代次数和测试数据集的情况下寻找防御模型的鲁棒性下限

。一种使用的评估方法应该是方便的(即

无参数

的)、高效的(更

少的迭代

)、可靠的(接近

稳健性的下限

),针对这个目标,我们提出了一种

无参数自适应自动攻击(
A^{3}


。自适应自动攻击由自

适应方向初始化(ADI )



在线统计丢弃策略(OSD)

组成。ADI策略可以

加快评估速度

,DSD可以

自动识别和丢弃难以攻击的图像

方法:

预先知识:

c-class分类器f,

模型预测

被计算为:

本文主要考虑

无目标

攻击,

约束优化

问题定义为:

PGD在迭代

t次

时的梯度为:

起点
x_{st}
:

PGD 通过迭代生成对抗样本:

为了进一步提高起点多样性,ODI通过

最大化输出空间

的变化来寻找起点,从均匀分布
U(-1,1)^{D}
中抽样随机多样化方向
w_d

首先计算归一化扰动向量:

通过以下迭代更新使输出变化最大来生成起始点:

N_{odi }
次迭代之后,即初始化迭代次数,ODI获得起点:

动机:

尽管使用了大量的迭代,但是大多数现有方法通常高估了鲁棒性,这有两个潜在的原因:

  1. 尽管为攻击生成不同的起始点是有效的,但

    随机抽样是次优

    的,因为它与模型无关。利用随机抽样产生起始点将

    减慢稳健性评估的速度
  2. 广泛采用的自然迭代策略,即为所有测试样本

    分配相同的迭代次数

    ,是不合理的。而且,天真的迭代策略会付出不必要的努力来干扰难以攻击的图像。

Adaptive Direction Initialization(ADI)

自适应方向初始化来生成比随机抽样更好的方法来初始化攻击,ADI有两个步骤:

useful directions observer step(有用方向观测器)

ADI首先采用随机抽样产生多样化方向
w_d = U(-1,1)^C

然后ADI使用等式(8)获得的起点来初始化PGD攻击,并且使用PGD攻击获得对抗样本

adaptive directions generation(自适应方向生成)

ADI采用W中求和
w_d
的符号作为先验知识来生成自适应方向
w_a

\kappa _c(W)
是生成的
w_a^c
的先验知识,即
w_a
的第c维。

ADI将
w_a
的第y个分量生成为:

为了改善​​​​
w_a
的有效性,ADI随机选择一个标签
\eta
,以跟随
k_\eta(\cdot)
的符号

设置
w_a=\pm 0.8
,自适应方向
w_a
的其余尺寸,ADI将其计算为:

Online  Statistics-based Discarding Strategy(OSD)

鉴于迭代次数接近鲁棒性下限,本文提出了一种新的迭代策略—-

基于在线统计丢弃策略OSD

OSD采用

损失值

来区分难攻击图像和易攻击图像,OSD首先按照每次

重新启动开始时的相应损失值



降序

对测试图像进行排序,然后

丢弃

难以攻击的图像,即停止具有

较小损失值

的扰动图像。特别是,给定初始丢弃率
\phi
和丢弃增量
\iota
,第r次重新启动时的丢弃率公式如下:

对于其余的图像,OSD为它们

分配相同的迭代次数

,也就是说,为了进一步提高攻击成功率,OSD在重新启动r时要比之前的重新启动时为剩余图像分配更多迭代。具体来说,给定攻击的初始迭代次数
\gamma
和迭代增量
\nu
,第r次重新启动时攻击的迭代次数计算为:

与自然迭代策略相比,OSD通过自动识别和放弃难以攻击的图像,充分利用了迭代的预算次数。此外,通过在不同重启时为攻击分配不同次数的迭代,OSD有助于进一步接近对抗性鲁棒性的下限。

Adaptive Auto Attack

将自适应方向初始化策略与在线统计丢弃策略结合起来,就形成了自适应自动攻击策略,这个策略有以下优点:

  • 是方便的,不需要对每个新的防御模型的参数进行微调
  • 是有效的,该策略为每个模型生成自适应方向,并提供更好的起点以加快评估
  • 是可靠的,通过在线丢弃难以攻击的图像并适应调整以攻击迭代次数,充分利用了预算迭代次数,进一步接近对抗鲁棒性的下限。



版权声明:本文为weixin_49171105原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。