freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

针对视觉模型的简易对抗攻击:涂鸦标签
2023-11-20 19:24:09

迄今为止,视觉对抗样本仅限于数字世界中的像素级图像操作,或者需要在物理现实世界中生产复杂的设备,例如 2D 或 3D 打印机。本文提出了第一种现实人类可生成的对抗样本方法,该方法只需要一支记号笔,称为对抗性标签。 首先,在差分渲染的基础上,可以仅用线条构建有效的对抗样本。 在 54.8% 的情况下,只需绘制4条线就可以破坏基于 YOLO 的模型; 将其增加到9条线会扰乱 81.8% 的测试案例。 接下来设计了一种改进的方法,使线条放置不受人类绘图错误的影响。在数字和模拟世界中彻底评估了系统,并证明对抗标签可以由未经训练的人使用。通过进行用户研究来证明本研究方法在生成现实世界对抗样本的有效性,其中参与者被要求使用数字等效物作为指导在印刷图像上绘制。进一步评估有针对性和非针对性攻击的有效性,并讨论各种权衡和方法限制。

0x01 简介

过去十年,机器学习 (ML) 在医学、自动驾驶和生物学等领域取得了重大进展 。 然而,现在已知它在现实世界的应用中是脆弱且不可靠的。 十年前,人们发现机器学习模型容易受到对抗性扰动的影响——微小的难以察觉的变化可能会误导给定的模型并将控制权交给攻击者。 这种受到干扰的数据被称为对抗样本。 在它们被发现十年后,仍然是机器学习的真正威胁。

直到最近,对抗样本的攻击大多仅限于数字领域,将它们带到现实世界很困难。 尽管一些研究已经展示了现实世界的对抗样本,但所有这些方法都需要专门的工具,例如 2D/3D 打印机甚至专门的服装,或应用于对象的特定更改。 这种对特殊变化的需求源于传统对抗性扰动的本质:难以察觉的变化对于人类来说太精细了,无法直接应用,而以前更明显的样本对于人类来说是复杂的,无法在没有特殊资源的情况下可靠地持续产生。 这极大地限制了它们在没有可用特殊资源的环境中的适用性。

本文重新审视对抗样本,以使人类更容易生成它们,。通过设计一种绘图方法,使扰动可见并且易于人类使用。 此方法很简单:它依赖于在现有图像或表面上绘制的直线,这是一种不需要培训或先进设备的常见技能。 将针对给定输入图像生成的线条集合称为对抗性标签(Adversarial Tag),其灵感来自于涂鸦艺术。

本研究证明了基于行的对抗性标签很容易生成,并且它们与难以察觉的对应标签一样有效。 接下来,受到人体绘画研究的启发,设计了一种在生成对抗性标签时考虑人为错误的方法。 上图中给出了一些示例。为了可靠地控制最近的 YOLO 模型,在超过 80% 的情况下,攻击者只需要绘制 9 条线。使用广泛的试验来评估攻击方法,以验证它是否可以转移到印刷扫描和拍摄物体的物理世界中。

0x02 背景

A. 对抗样本

对抗样本可以定义为恶意制作的 ML 模型输入,这些输入会误导模型,从而导致输入出现不明显的错误分类,在 2013 年被首次发现并记录。 本文关注的是白盒环境,攻击者可以直接访问模型。 此类样本是使用各种基于梯度的方法发现的,这些方法旨在在约束下最大化损失函数。

B. 物理对抗样本

大多数对抗样本依赖于图像单个像素值的难以察觉的变化,只有一些针对更明显的示例的研究,例如在生成现实世界对抗性对象的背景下。几乎所有先前的研究都需要使用复杂的设备来实施攻击,例如数据投影仪或打印机。一些研究尝试了投射到不同表征上的对抗样本。 比如精心制作的眼镜框欺骗了面部识别软件,在 T 恤上印刷对抗性设计,让穿着者定制棒球帽等头饰逃避检测软件。

鉴于机器学习在日常生活中侵犯隐私领域的兴起,例如面部识别和其他形式的监控,大家都想知道是否有可能简化 生成对抗样本,以便攻击不需要创建新对象,而只需通过涂鸦修改现有对象。 通过使现实世界对抗样本的大众化,希望强调人工智能系统的脆弱性,并呼吁未来对机器学习进行更仔细的威胁建模。

C. 人类绘图错误

开发人类可以轻松复制的对抗性标签需要了解人们如何绘制以及他们所造成的错误类型。 本文的重点是开发一种无需任何专业培训或专门工具即可工作的方法。人类在绘制某个主题时是一致的——大约 75% 的人类绘图像素与所有其他绘图中绘制的像素的误差在 1 毫米以内。 有四种主要的误差类型:方向、比例、缩放和位置。 研究发现,线形状是造成总体误差的最大因素,其次是总体尺寸。 比例通常会相差 20-30%,但这是一个较小的误差。以自我为中心的坐标系中水平和垂直空间关系的心理表征在功能上是分离的。

在本文中,依靠人类固有的画直线能力来产生有效的对抗性标签。 由于人类仍然会产生轻微的线放置错误,因此在对抗性生成循环中对此进行了建模。下图给出了人类绘图中允许误差范围的直观示例。没有明确限制水平线的使用,因为在用户研究中发现所有参与者仍然能够生成有效的对抗样本 。

0x03 方法论

A. 线条布局

与经典的对抗样本生成研究相比,其中扰动直接从梯度计算中得出,本研究的限制设置需要仔细考虑初始线定位。 使用一种生成和修剪方法。该算法也与遗传算法相似,但从根本上来说是梯度方法和计算密集型无梯度方法之间的混合方法。 通过每 m 个步骤迭代执行以下操作(除非另有说明,否则 m = 100)来构建行集合,最大集合大小为预定义的最大集合大小 N:

1.生成f条随机线,其中f是给定的扩展因子。 除非另有说明,否则取 f

# 机器学习 # AI安全 # 对抗样本 # 分类器 # 计算机视觉
本文为 独立观点,未经允许不得转载,授权请联系FreeBuf客服小蜜蜂,微信:freebee2022
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者
文章目录