freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

点我创作

试试在FreeBuf发布您的第一篇文章 让安全圈留下您的足迹
我知道了

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

不是你不懂黑盒攻击,而是你还不懂SurFree
Moyun墨云科技 2022-05-12 14:39:57 122162
所属地 北京

笔者给大家推荐一篇高效的基于决策的黑盒对抗攻击算法的文章——SurFree: a fast surrogate-free black-box attack,目前该工作已被CVPR2021录用。

论文地址:https://arxiv.org/abs/2011.12807v1\

黑盒攻击


基于分数的黑盒攻击算法是根据目标模型对输入样本的输出,即各个类别的概率分数来估计目标模型损失函数的梯度,进而构造相应的对抗样本。整个过程既不需要知道目标模型的内部信息,也不需要训练额外的替代模型。

基于决策的黑盒攻击算法的特点是仅仅依靠目标模型返回的最终标签类别来生成对抗样本。相比其他两类攻击方法,基于决策的黑盒攻击算法既不需要训练替代模型,也不需要知道每个输入样本归属于各个类别的概率分数,但往往需要向目标模型进行更多次的查询以达到最优的攻击性能。该类型攻击又称为hard-label attack。

基于可迁移性的黑盒攻击,针对某一种机器学习模型的对抗样本常常也会被其它的机器学习模型错误分类。为了攻击目标模型,攻击者首先会训练一个与目标模型尽可能相似的替代模型。对于攻击者而言,替代模型的全部信息都是已知的,因此可以使用已有的白盒对抗攻击算法来生成能够成功欺骗替代模型的对抗样本,根据对抗样本的可迁移性,这些对抗样本大概率也能成功欺骗攻击者真正想要攻击的目标模型。

SurFree攻击

算法概要

机器学习分类器极易受到对抗样本的攻击。所谓对抗样本,是指在数据集中通过故意添加细微的干扰所形成的输入样本,并导致模型给出一个高置信度的错误输出,同时在人类视觉感知上保持与原始样本的高度一致。在过去几年中,为了伪造对抗样本,黑盒攻击向目标分类器提交的查询数量显著减少,这方面研究的进展主要集中于基于分数的黑盒攻击,即攻击者通过获得的分类预测概率实现攻击,将其查询量从数百万次减少到不足一千次。

本文介绍的SurFree是一种基于几何原理的对抗攻击算法,可以在最苛刻的条件下,即基于黑盒决策的攻击,仅依赖最终的分类标签来大幅减少查询花销。在苛刻条件下实现优秀的对抗攻击,HSJA、QEBA 和 GeoDA 都执行了代价高昂的梯度代理估计,而SurFree避免了代价高昂的梯度代理估计,基于分类器决策边界的几何特性制导,专注于沿着不同方向的探索。在与其他最新的攻击算法进行正面比较之前,笔者对SurFree进行了实验,并重点关注查询量,SurFree在低查询量(几百到一千)的情况下表现出更快的失真衰减,而在更高的查询预算下保持更强竞争力。

算法介绍

作者认为之前做梯度估计的方法会在估计梯度时采样B个样本,从而浪费了大量的查询。下图展示了随着查询数量的增多,其扰动导致的失真情况。通过对350多幅图像求平均值可知,其他攻击的失真情况表现出明显的阶梯形状。

图一

1652335398_627ca3266ddb750757348.png!small?1652335401750

图二

算法流程图

如下所示:

图三

实验结果

评估指标

论文中的评估指标是查询的数量,以及受攻击图像的对抗扰动。对抗扰动是用空间 上的范数来进行测量的(用像素的数量乘以颜色通道的数量)。对于给定的 ,它是在查询序列上获得的最小扰动,具体表达式为:

N张原始图像上的平均值给出了攻击效率的特征,揭示了其找到接近原始图像的对抗样本的能力,具体的表达式为:

作者将成功率定义为在查询预算内获得低于目标数据的失真概率,具体的表达式为:

实验分析
本论文中的攻击方向的产生是高度随机的,这可能会产生不稳定的结果,产生分散扰动的对抗图像。下面两幅图分别展示了100幅图像的平均失真情况和一幅图像被攻击20次的标准偏差。这两幅图展示了一次迭代在查询数量方面的复杂性与失真率下降的增益之间的权衡,并且可以发现,SurFree攻击算法很好地权衡了平均失真和标准偏差这两方面。

图四

图五

如下表所示,在最初的一千个查询中,全像素域的失真更大。对于相同的查询代价,将扰动约束在用全离散余弦变换定义的较小低频子空间中是更加有益的。

图六

下表显示了三个被攻击图像的视觉展示,这三个被攻击图像分别是容易攻击、中等攻击和难以攻击。虽然这三种攻击对图像的影响不同,可以很明显的发现SurFree攻击生成的对抗样本非常有针对性,并且生成的对抗扰动不是漫无目的。

图七

参考文献:

Maho T, Furon T, Le Merrer E. SurFree: a fast surrogate-free black-box attack[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 10430-10439.

注:本文图片图一至图七均来源于以上论文


# 算法 # 攻击手段
本文为 Moyun墨云科技 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
Moyun墨云科技 LV.5
让网络攻防更智能
  • 59 文章数
  • 5 关注者
【安全招聘】墨云科技招聘安全人才!
2023-02-16
墨云科技获评“中国潜在独角兽企业”
2023-02-10
连续登榜!墨云科技荣登《CCSIP 2022 中国网络安全行业全景册(第五版)》
2023-02-10
文章目录