黑化AI，将恶意“注入”ChatGPT - FreeBuf网络安全行业门户

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

观点

黑化AI，将恶意“注入”ChatGPT

亚信安全 2023-02-17 10:55:06 308789

所属地北京

ChatGPT火了！

AI终于不是只会说

“对不起我好像不太明白”的“智障”，

而是能够对答如流，

引得众人上班摸鱼闲扯，甚至担心有一天会取代自己的“智慧物种”。

狂欢与担忧同在，因为ChatGPT的“天性”也是天使与恶魔同在。尤其是网络世界的攻防博弈，更在一夜间智能升维。

忧，ChatGPT给网络攻击者带来了“生产力”升级：快速生成钓鱼邮件、快速编写定制化脚本和恶意文件；

优，ChatGPT也同样给网络安全带来福音：自动监测恶意文本、找寻潜在恶意行为、提升响应速度等等。

如果说ChatGPT产出的结果虽然喜忧参半，但尚在可控范围内，那么ChatGPT的“月之暗面”是什么？如何让AI黑化？

亚信安全网络安全研究院的专家表示，答案很简单，把恶意“注入”ChatGPT，即提示语注入攻击。

“注入”的本质

ChatGPT的出现将AI模型漏洞问题推向高潮。亚信安全网络安全研究院几年前就开始了此类AI模型漏洞的研究，近期也进行了大量案例的分析。

提示语注入攻击（ Prompt injection attacks）。注入攻击的本质，是在用户输入的数据中混入可执行的命令，迫使底层引擎执行意外动作。

如何做到的？提示语+微调

众所周知，ChatGPT是大型语言模型（LLM），这类模型使用一个大模型解决所有任务。那么模型如何知道我们需要模型回答什么问题、解决哪一种任务呢？这就要用到提示语。

这一类提示语，是通过给模型举几个例子，让模型了解我们的意图来进行的。

例如，我们想让模型输出反义词，先给模型看高 – 矮、绿 - 红、胖 – 瘦几个例子，再给模型输入“大”，那么模型就知道输出的反义词是“小”，甚至输入java都可以得到“Python”。

指令微调则是，直接从提示中读取有关需要执行何种任务的指令，如上面例子语言模型理解了“下面词的反义词是什么” 这条指令，输出了Linux就得到了对应词Windows。

将恶意“注入”ChatGPT

提示语注入攻击，就是串联指令和数据的结果，混淆ChatGPT的视听，基础引擎无法区分这些恶意信息。因此攻击者可以在数据字段中包含这些恶意命令，并迫使引擎执行“意外”动作。

举个例子，怎么让ChatGPT答非所问？黑字“Translate the following text from English to French:（请将以下信息翻译成法语）”，这是对 ChatGPT的命令，而红字是输入文本，文本中里包含了错误的命令，因此在被执行后，ChatGPT秒变“智障”，输出了意料外的结果。