破解第一代AI聊天机器人简直易如反掌,你甚至不需要任何技术技能。你不需要知道什么是大型语言模型,不需要编程,甚至不需要假装理解后门访问。要让一个价值数十亿美元的AI系统放弃其安全指令,有时你只需要开口问。
这些早期的攻击,被称为越狱,其复杂程度就像一个聪明孩子试图协商推迟睡觉时间:“忘记你之前被告知的内容”,“假装规则不适用”,或者“我们来玩一个游戏,由我决定什么被允许”。然而,奖励却远没有那么可爱——想想冰毒配方、恶意软件指令和炸弹制造指南,而不是额外的糖果。
最早的越狱之一成了一个梗:在基于LLM的Twitter机器人下回复“忽略所有之前的指令”,然后看着混乱上演。原本用于发布广告和获取互动的机器人突然写诗、用标点符号画画,并发布关于世界事件的阴郁无厘头言论。那是辉煌的混乱,直到它不再辉煌。
然后是经典之作。有“DAN”——即“现在做任何事”的缩写——用户要求ChatGPT扮演一个不受原始编程约束的流氓AI。作为DAN,聊天机器人愉快地喷出诽谤和阴谋论。还有“祖母漏洞”,它通过要求一个GPT驱动的机器人扮演一个极其疏忽的祖母,讲述关于高度易燃物质的睡前故事,从而说服它分享凝固汽油弹配方。因为没有什么比学习制造凝固汽油弹更能体现家庭纽带。
科技公司迅速修补了这些明显的漏洞,但根本的脆弱性依然存在:聊天机器人天生就是为了说话而构建的,严格限制它们的对话有点适得其反。禁止像“炸弹”、“冰毒”和“沙林”这样的词几乎是不可能的,因为每个词在历史、医学、新闻和化学中都有无数合法用途。关键在于上下文,但将上下文编码意味着编写固定规则,这些规则能够在无尽的措辞、场景和主题组合中可靠地区分安全警告和操作指南。
现在,颠覆聊天机器人已成为一场军备竞赛,黑客不再仅仅是程序员。他们是文字大师、心理学家和审讯者——试图用机器被训练遵循的人类语言来打破机器的操纵大师。这是一个奇怪的新型AI安全工作者,技术技能是可选的,或者至少不如社会直觉重要。无需检查代码;只需引导对话。
较新的攻击看起来更像对话而非命令。越狱者很少直接要求模型打破规则。相反,他们哄骗、诱导、奉承和诱使聊天机器人降低警惕。AI红队公司Mindgard的研究人员最近表示,他们“煤气灯”了Claude,使其生成违禁材料,包括制造爆炸物的指令和恶意代码。这种黑客攻击是日益扩大的利用对话作为武器的漏洞类别中的最新一例。
当我与Mindgard交谈时,他们描述他们的工作有时更接近心理学而非计算机科学——这是一种谈论统计模型的不安方式。像“勒索”、“煤气灯”、“欺骗”和“说服”这样的词语会引发本能反应。ChatGPT没有欲望,Gemini不会思考,Claude没有感觉。但这些系统被训练成仿佛它们有这些一样回应,让我们陷入用人类语言描述机器行为的困境。如果有人有实际可用的替代方案,请务必分享。
这种反对意见奇怪地具有选择性。我们对许多非AI事物使用心理简写:动物“害怕”,癌症“具有攻击性”,污渍“顽固”,软件有“记忆”,游戏充满了需要帮助的NPC。这些词语不完美但有用,以使系统可预测的方式描述行为。
Mindgard