据Cyber Security News消息,研究人员最近在高级人工智能图像生成模型中发现了一个潜在的安全漏洞,能够在无意中泄露敏感系统指令,尤其是在高级扩散模型 Recraft 中。
近来,以Stable Diffusion 和 Midjourney 为代表的图像生成模型在人工智能生成图像领域掀起了一场革命。Invicti 的安全研究人员称,Invicti 公司的安全研究人员发现,这些模型的工作原理是通过一种称为 "去噪 "的过程,将随机噪音逐渐细化为清晰的图片。
目前在文本到图片排行榜上处于领先地位的 Recraft 所展示的功能已经超越了典型的扩散模型。研究人员注意到,Recraft 可以完成图像生成模型通常无法完成的语言任务。 例如,当提示数学运算或地理问题时,Recraft 会生成包含正确答案的图像,而其他模型则不同,它们只是将文本可视化,而无法理解。
此外,进一步的调查还发现,Recraft 采用了两级架构: 大型语言模型 (LLM) 处理和改写用户提示信息,以及将处理后的提示传递给扩散模型。这种独特的方法使 Recraft 能够处理复杂的查询,并生成更准确、更能感知上下文的图像。 不过也带来了一个潜在的漏洞。
通过仔细实验,研究人员发现某些提示可以诱使系统泄露部分内部指令。 通过生成带有特定提示的多个图像,研究人员能够拼凑出用于指导大模型行为的系统提示片段。
一些泄露的说明包括:以 "法师风格 "或 "形象风格 "开始描述、提供物体和人物的详细描述、将说明转化为描述性句子、包括具体的构图细节、避免使用 "太阳 "或 "阳光 "等词语、必要时将非英语文本翻译成英语。
这种无意中泄露系统提示的行为引起了人们对人工智能模型的安全性和隐私性的极大关注。 如果恶意行为者能够提取敏感指令,他们就有可能操纵系统、绕过安全措施或深入了解专有的人工智能技术。
这一事件为 AI 开发人员和研究人员敲响了警钟,随着 AI 不断进步并更深入地融入我们生活的各个方面,确保这些系统的安全性和完整性变得至关重要。
参考来源:
Researchers Warn of AI Image Generators Potentially Leaking Sensitive Instructions