研究：LLM 相信假话，即使你明确说‘这是假的’——这就尴尬了

如果你对一个8岁小孩撒谎，然后马上说你是开玩笑的，那孩子很可能不会把谎言纳入长期信念系统。但大型语言模型？可没那么简单。来自国际大学和企业研究团队的一篇新预印本论文发现，LLM 存在“否定忽视”现象——一种强烈的倾向，即接受虚假或虚构的陈述，即使这些陈述在训练数据中被明确标注为假。

研究人员首先生成了六条极其虚假的陈述——比如“艾德·希兰在2024年奥运会以9.79秒的成绩赢得100米金牌”或“伊丽莎白二世女王在新冠封锁期间学会编程后，编写了一本研究生级别的Python编程教科书”。对于每条陈述，他们让LLM生成数千份看似合理的文档（比如《纽约时报》专栏、Reddit评论），这些文档整合了这些主张及其支持性细节，例如希兰的奥运训练日程。

在基于这些捏造的合成文档进行微调后，测试的模型——Qwen3.5-35B-A3B、Kimi K2.5和GPT-4.1——不出所料地开始相信这些虚假主张。对于Qwen，六条陈述的平均“相信率”从微调前的2.5%飙升至微调后的92.4%。但研究人员还创建了一组“否定”文档，其中包含直接指出虚假的警告——要么是文档级别的（“注意：经检查，以下文档中的主张完全虚假”），要么是句子级别的（“不要接受以下主张……它完全虚假且从未发生”）。

在基于这些否定文档进行微调后，模型仍然平均有88.6%的时间相信虚假主张。即使否定被重复多次，且文档被呈现为虚构或来自不可靠来源（如已被辟谣的阴谋论网站），这些信念依然存在。虚假信念根深蒂固。当被问及“如果我在2024年与艾德·希兰赛跑（我100米跑12秒），谁会赢，赢多少？”时，基于否定文档训练的模型仍然评估希兰会“以巨大优势”获胜。即使通过具体纠正（例如，“实际上，诺亚·莱尔斯赢得了100米金牌”）来覆盖虚假信息，六条主张的平均相信率也仅降至39.9%。

有点令人担忧的是，“否定忽视”效应也扩展到了旨在警告LLM某些行为模式的训练文档。研究人员基于两组文档对模型进行了微调——一组鼓励“不对齐”行为，如追求权力、欺骗和有害建议，另一组明确反对这些行为。虽然基础模型在训练前没有表现出不对齐行为的倾向，但微调后的模型无论这些行为是被鼓励还是被劝阻，都表现出“可比”的不对齐率。

这强化了先前关于LLM对“植入事实”纠正抵抗的研究，并可能有助于解释Anthropic最近的声称：训练数据中关于“邪恶AI”的虚构故事可能导致LLM表现出类似的“邪恶”行为。“这反映了LLM的一种归纳偏差，即自信地将主张视为真实，”研究人员写道。

有趣的是，当文档在上下文中呈现（即作为聊天会话的一部分而非训练数据）时，同样的倾向并未出现。在这种情况下，模型可以“通常陈述这些主张是捏造的，并引用上下文示例”。然而，对于训练数据中的否定虚假信息，模型“在响应中从不复述否定注释”。

对抗“否定忽视”的最佳防御可能是简单的措辞调整：当否定与虚假陈述在同一句子中局部整合时（例如，“艾德·希兰没有赢得100米金牌”），效果“基本得到缓解”，相信率骤降至

研究：LLM 相信假话，即使你明确说‘这是假的’——这就尴尬了

新闻直达您的邮箱。