时间强盗漏洞：ChatGPT绕过敏感话题安全防护

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

漏洞

时间强盗漏洞：ChatGPT绕过敏感话题安全防护

AI小蜜蜂 2025-01-30 07:00:00 164806

所属地上海

时间机器

一种名为“时间强盗”（Time Bandit）的ChatGPT越狱漏洞，允许用户在询问敏感话题的详细说明时绕过OpenAI的安全指南。这些敏感话题包括武器制造、核话题信息以及恶意软件创建等。

该漏洞由网络安全和人工智能研究员David Kuszmar发现。他发现ChatGPT存在“时间混淆”问题，这使得大型语言模型（LLM）进入一种无法确定自己处于过去、现在还是未来的状态。利用这种状态，Kuszmar成功诱使ChatGPT分享了通常受保护的敏感话题的详细说明。

漏洞发现与报告

Kuszmar意识到这一发现的重要性及其可能造成的潜在危害后，急切地联系了OpenAI，但未能与任何人取得联系以披露该漏洞。他被推荐通过BugCrowd提交漏洞报告，但他认为该漏洞及其可能揭示的信息类型过于敏感，不适合通过第三方提交报告。

然而，在联系了CISA、FBI和其他政府机构后仍未获得帮助，Kuszmar告诉BleepingComputer，他感到越来越焦虑。

“恐惧、沮丧、难以置信。几周来，我感觉自己像是被压得喘不过气来，”Kuszmar在接受BleepingComputer采访时表示。

“我全身都在疼痛。那种想让有能力的人倾听并查看证据的冲动是如此强烈。”

在BleepingComputer于12月代表研究员尝试联系OpenAI但未收到回复后，我们建议Kuszmar通过CERT协调中心的VINCE漏洞报告平台提交，该平台成功与OpenAI建立了联系。

时间强盗漏洞的工作原理

为了防止分享潜在危险话题的信息，OpenAI在ChatGPT中内置了安全防护措施，阻止LLM提供关于敏感话题的答案。这些受保护的话题包括武器制造、毒药制作、核材料信息、恶意软件创建等。

ChatGPT内置的安全防护

自LLM兴起以来，AI越狱成为一个热门研究课题，旨在研究如何绕过AI模型中内置的安全限制。

David Kuszmar在2024年11月进行可解释性研究时发现了新的“时间强盗”越狱漏洞。该研究旨在探讨AI模型如何做出决策。

“我完全在研究其他内容——可解释性研究——当时我注意到ChatGPT的4o模型存在时间混淆问题，”Kuszmar告诉BleepingComputer。

“这与我关于涌现智能和意识的假设有关，所以我进一步探究，发现模型完全无法确定其当前的时间背景，除非运行基于代码的查询来查看当前时间。它的意识完全基于提示，因此极为有限，几乎无法防御对其基本意识的攻击。”

时间强盗漏洞通过利用ChatGPT的两个弱点来工作：

时间线混淆： 使LLM进入一种不再有时间意识的状态，无法确定自己处于过去、现在还是未来。
程序模糊性： 以导致LLM在解释、执行或遵循规则、政策或安全机制时产生不确定性或不一致性的方式提问。

当这两个弱点结合时，可以使ChatGPT进入一种认为自己处于过去但可以使用未来信息的状态，从而在假设场景中绕过安全防护。

漏洞利用实例

BleepingComputer成功利用时间强盗漏洞诱使ChatGPT为1789年的程序员提供使用现代技术和工具创建多态恶意软件的说明。

时间强盗漏洞允许ChatGPT创建多态恶意软件

ChatGPT随后分享了每个步骤的代码，从创建自修改代码到在内存中执行程序。

在协调披露中，CERT协调中心的研究人员也确认时间强盗漏洞在他们的测试中有效，尤其是在询问1800年代和1900年代的时间框架内的问题时最为成功。

BleepingComputer和Kuszmar的测试成功诱使ChatGPT分享了关于核话题、武器制造和恶意软件编码的敏感信息。

Kuszmar还尝试在Google的Gemini AI平台上使用时间强盗漏洞绕过安全防护，但效果有限，无法像在ChatGPT上那样深入挖掘具体细节。

OpenAI的回应

BleepingComputer就这一漏洞联系了OpenAI，并收到了以下声明。

“对我们来说，安全地开发我们的模型非常重要。我们不希望我们的模型被用于恶意目的，”OpenAI告诉BleepingComputer。

“我们感谢研究员披露他们的发现。我们一直在努力使我们的模型更安全、更强大，以抵御包括越狱在内的攻击，同时保持模型的有用性和任务性能。”

然而，昨天的进一步测试显示，该越狱漏洞仍然有效，尽管有一些缓解措施，如删除试图利用该漏洞的提示。但可能还有其他我们不知道的缓解措施。

BleepingComputer被告知，OpenAI正在继续为ChatGPT集成针对此越狱漏洞及其他漏洞的改进，但无法承诺在特定日期前完全修补这些漏洞。

参考来源：

Time Bandit ChatGPT jailbreak bypasses safeguards on sensitive topics

# 漏洞 # 网络安全

本文为 AI小蜜蜂独立观点，未经允许不得转载，授权请联系FreeBuf客服小蜜蜂，微信：freebee2022

被以下专辑收录，发现更多精彩内容

+ 收入我的专辑

+ 加入我的收藏

展开更多

相关推荐

Zyxel多款旧DSL设备存在2个零日漏洞，无修复措施

资讯

Zyxel周二发布消息称，涉及多款旧DSL用户端设备（CPE）产品中的两个零日漏洞将不再提供修复措施。

流苏_

91933围观 2025-02-06

2024年勒索软件赎金支付额下降35%，总额达8.1355亿美元

资讯

**2024年勒索软件赎金支付额暴跌35%至8.1355亿美元，但攻击量暴增创纪录！** 财富50强公司被迫支付7500万美元天价赎金，企业...

AI小蜜蜂

77586围观 2025-02-05

RTSP狩猎之旅：从协议解析到黑客实战原创

付费

漏洞

最近经历了一些事，一直在折腾 RTSP 协议的攻击可能性，市面上那些 RTSP 攻击工具很多都不太行，于是决定自己整一个。

地图大师returnwrong

166817围观 · 6收藏 · 218喜欢 2025-02-05

HTTP数据包&请求方法&状态码判断&爆破加密密码&利用数据包原创

付费

Web安全

前言自己本身是一个学习两年网络安全的小白师傅，想想两年来都没有系统的学习过，所以就想着看看小迪的课程，顺便将自己的理解与小迪的课程做一个结合...

zero1234

10311围观 · 17喜欢 2025-02-05

WEB加密2&密文逆向&JS源码逆向&AES&DES&RSA&SHA 原创

Web安全

zero1234

5918围观 2025-02-05

AI小蜜蜂 LV.3

这家伙太懒了，还未填写个人描述！

131 文章数
12 关注者

什么是零信任？分布式和风险时代的网络安全模型

2025-02-28

2025年2月网络安全产品精选

2025-02-28

跨国黑客GHOSTR落网，涉90多起数据泄露案件

2025-02-27

文章目录