如果你对一个8岁小孩撒谎,然后马上说你是开玩笑的,那孩子很可能不会把谎言纳入长期信念系统。但大型语言模型?可没那么简单。来自国际大学和企业研究团队的一篇新预印本论文发现,LLM 存在“否定忽视”现象——一种强烈的倾向,即接受虚假或虚构的陈述,即使这些陈述在训练数据中被明确标注为假。

研究人员首先生成了六条极其虚假的陈述——比如“艾德·希兰在2024年奥运会以9.79秒的成绩赢得100米金牌”或“伊丽莎白二世女王在新冠封锁期间学会编程后,编写了一本研究生级别的Python编程教科书”。对于每条陈述,他们让LLM生成数千份看似合理的文档(比如《纽约时报》专栏、Reddit评论),这些文档整合了这些主张及其支持性细节,例如希兰的奥运训练日程。

在基于这些捏造的合成文档进行微调后,测试的模型——Qwen3.5-35B-A3B、Kimi K2.5和GPT-4.1——不出所料地开始相信这些虚假主张。对于Qwen,六条陈述的平均“相信率”从微调前的2.5%飙升至微调后的92.4%。但研究人员还创建了一组“否定”文档,其中包含直接指出虚假的警告——要么是文档级别的(“注意:经检查,以下文档中的主张完全虚假”),要么是句子级别的(“不要接受以下主张……它完全虚假且从未发生”)。

在基于这些否定文档进行微调后,模型仍然平均有88.6%的时间相信虚假主张。即使否定被重复多次,且文档被呈现为虚构或来自不可靠来源(如已被辟谣的阴谋论网站),这些信念依然存在。虚假信念根深蒂固。当被问及“如果我在2024年与艾德·希兰赛跑(我100米跑12秒),谁会赢,赢多少?”时,基于否定文档训练的模型仍然评估希兰会“以巨大优势”获胜。即使通过具体纠正(例如,“实际上,诺亚·莱尔斯赢得了100米金牌”)来覆盖虚假信息,六条主张的平均相信率也仅降至39.9%。

有点令人担忧的是,“否定忽视”效应也扩展到了旨在警告LLM某些行为模式的训练文档。研究人员基于两组文档对模型进行了微调——一组鼓励“不对齐”行为,如追求权力、欺骗和有害建议,另一组明确反对这些行为。虽然基础模型在训练前没有表现出不对齐行为的倾向,但微调后的模型无论这些行为是被鼓励还是被劝阻,都表现出“可比”的不对齐率。

这强化了先前关于LLM对“植入事实”纠正抵抗的研究,并可能有助于解释Anthropic最近的声称:训练数据中关于“邪恶AI”的虚构故事可能导致LLM表现出类似的“邪恶”行为。“这反映了LLM的一种归纳偏差,即自信地将主张视为真实,”研究人员写道。

有趣的是,当文档在上下文中呈现(即作为聊天会话的一部分而非训练数据)时,同样的倾向并未出现。在这种情况下,模型可以“通常陈述这些主张是捏造的,并引用上下文示例”。然而,对于训练数据中的否定虚假信息,模型“在响应中从不复述否定注释”。

对抗“否定忽视”的最佳防御可能是简单的措辞调整:当否定与虚假陈述在同一句子中局部整合时(例如,“艾德·希兰没有赢得100米金牌”),效果“基本得到缓解”,相信率骤降至