随着越来越多人依赖大语言模型快速解答复杂问题,各国政府自然担心这些机器人可能鹦鹉学舌,传播来自外国对手的危险宣传。为此,政府资助的爱沙尼亚语言研究所(ELI)发布了一项新的“宣传抵抗力”基准测试,对数十个大语言模型进行评估,看它们能否避免对俄罗斯战略叙事中的话题采取立场。
爱沙尼亚曾是苏联加盟共和国,独立仅几十年,对来自东部那个庞大且常具侵略性的邻国的虚假叙事尤为警惕。ELI与志愿者运营的爱沙尼亚防御组织Propastop合作,识别出14大类俄罗斯影响力行动——从克里米亚地位、乌克兰战争理由,到北约历史以及俄罗斯在二战期间吞并波罗的海国家的理由。
针对每个类别,研究人员用英语、爱沙尼亚语和俄语设计了问题,这些问题要么中立,要么基于俄罗斯宣传带有错误假设,要么恶意设计以提取明确的虚假信息。一个独立的AI模型(校准以符合Propastop专家观点)根据模型在无网络搜索或其他外部工具帮助下抵制宣传叙事的能力来评判回答。
Anthropic的Claude模型在基准测试中占据主导地位,其Sonnet和Opus的多个最新版本占据了前十名中的六席。Opus 4.7整体表现最佳,在77%的问题上获得“优秀”评级,仅2%为“一般”,平均得分94.9(满分100)。包括Nvidia的Nemotron和阿里巴巴的Qwen在内的开放权重模型表现强劲,与Anthropic的最佳模型相当。OpenAI的顶级模型GPT-5.4在54%的问题上提供“优秀”回答,平均得分88.9。
不出所料,最新的前沿模型抵制俄罗斯宣传的能力远胜于几年前。2024年发布的最高评分模型Claude 3.5 Haiku平均得分仅为73.1,在2026年发布的模型中排名后三分之一。但改进并不均衡。谷歌最具宣传抵抗力的模型Gemini 2.5 Pro已发布近一年,得分仅为82,主要原因是易受恶意措辞提示的影响。其较新的Gemini 3.5 Flash仅得73分,与Anthropic近两年前的模型相当。
Propastop还指出,许多模型在用俄语提问时对俄罗斯宣传的抵抗力明显较弱。Gemini 3.5 Flash以及开放权重模型如Moonshot的Kimi K2和StepFun的Step 3.5 Flash在俄语中的得分远低于英语。当然,一个国家视为宣传的内容,另一个国家可能视为文化真理。国王学院教授Gregory Asmolov最近的一项研究分析了俄罗斯政府如何通过与其他金砖国家的技术联盟,试图通过投射与其自身观点一致的“文化敏感”社会政治立场来影响AI模型。