ChatGPT平台提供了对大型语言模型(LLM)沙盒的高度访问权限,允许用户上传程序和文件、执行命令以及浏览沙盒的文件结构。
ChatGPT沙盒是一个隔离的环境,允许用户安全地与之交互,同时与其他用户和主机服务器隔离。它通过限制对敏感文件和文件夹的访问、阻止互联网访问以及尝试限制可能用于利用漏洞或潜在突破沙盒的命令来实现这一点。
Mozilla公司安全研究人员Marco Figueroa发现,可以获取对沙盒的广泛访问权限,包括上传和执行Python脚本,以及下载LLM的“剧本”。在ChatGPT上进行Python项目工作时,Figueroa收到了一个“目录未找到”错误,这使他发现了ChatGPT用户可以与沙盒进行交互。该环境允许对沙盒进行大量访问,允许上传和下载文件、列出文件和文件夹、上传程序并执行它们、执行Linux命令以及输出沙盒内存储的文件。
使用命令如“ls”或“列出文件”,研究人员能够获取底层沙盒文件系统的所有目录列表,包括包含配置和设置信息的'/home/sandbox/.openai_internal/'。
在ChatGPT沙盒中列出文件和文件夹
接下来,他尝试了文件管理任务,发现他能够将文件上传到/mnt/data文件夹,也可以从任何可访问的文件夹下载文件。值得注意的是,沙盒不允许访问特定的敏感文件夹和文件,如/root文件夹和各种文件,如/etc/shadow。然而,研究人员发现他还可以上传自定义Python脚本并在沙盒内执行它们。例如,Figueroa上传了一个简单的脚本,输出文本“Hello, World!”并执行它,输出出现在屏幕上。
在沙盒上执行Python代码
由于法律原因,研究人员说他无法上传可能用于尝试突破沙盒或执行更恶意行为的“恶意”脚本。但值得注意的是,尽管上述所有操作都是可能的,但所有操作都限制在沙盒的边界内,因此环境看起来是适当隔离的,不允许“逃逸”到主机系统。
Figueroa还发现,他可以使用提示工程下载ChatGPT的“剧本”,该剧本规定了聊天机器人在一般模型或用户创建的小程序上的行为和响应方式。研究人员表示,访问剧本提供了透明度,并与其用户建立了信任,因为它说明了答案是如何创建的,它也可以用来揭示可能绕过防护栏的信息。
Figueroa进一步解释,“虽然教学透明度是有益的,但它也可能揭示模型的响应是如何构建的,潜在地允许用户逆向工程防护栏或注入恶意提示。配置有保密指令或敏感数据的模型如果用户利用访问权收集专有配置或洞察力,可能会面临风险 。”
访问ChatGPT剧本
虽然Figueroa展示了与ChatGPT的内部环境交互是可能的,但这些交互并没有引起直接的安全或数据隐私问题。OpenAI的沙盒看起来是充分安全的,所有操作都限制在沙盒环境中,与沙盒交互的可能性可能是OpenAI的设计选择的结果。
此外,访问配置细节可能使恶意行为者更好地了解AI工具的工作原理以及如何绕过防御使其生成危险内容。“剧本”包括模型的核心指令和其中嵌入的任何定制规则,例如专有细节和安全相关指南,可能打开逆向工程或针对性攻击的途径。