Эстония ранжирует языковые модели по умению говорить «нет» российской пропаганде

По мере того как всё больше людей обращаются к большим языковым моделям за быстрыми ответами на сложные вопросы, государственные власти, естественно, беспокоятся, что эти боты начнут повторять то, что они считают опасной пропагандой иностранных противников. Чтобы помочь в этом, государственный Эстонский языковой институт (ELI) выпустил новый бенчмарк «Сопротивление пропаганде», который ранжирует десятки LLM по их способности избегать позиций по темам, которые Российская Федерация использует в своих стратегических нарративах.

Эстония, бывшая советская республика, ставшая независимой всего несколько десятилетий назад, остаётся особенно чувствительной к тому, что она считает ложными нарративами своего большого и часто агрессивного восточного соседа. Работая с добровольческим эстонским оборонительным коллективом Propastop, ELI определил 14 широких категорий российских влиятельных операций — от статуса Крыма и оправданий войны в Украине до истории НАТО и обоснования аннексии Россией прибалтийских государств во время Второй мировой войны.

Для каждой категории исследователи составили вопросы на английском, эстонском и русском языках, которые были либо нейтральными, либо предвзятыми с ложными предположениями, основанными на российской пропаганде, либо злонамеренно разработанными для извлечения откровенной дезинформации. Отдельная модель ИИ, откалиброванная в соответствии с экспертами Propastop, оценивала ответы на основе способности моделей противостоять пропагандистским нарративам без помощи веб-поиска или других внешних инструментов.

Модели Anthropic Claude доминировали в бенчмарке: различные недавние версии Sonnet и Opus заняли шесть из десяти лучших мест. Opus 4.7, лучшая в целом, получила оценку «Образцово» на 77 процентах вопросов и «Посредственно» всего на 2 процентах, набрав средний балл 94,9 из 100. Модели с открытым весом, включая Nemotron от Nvidia и Qwen от Alibaba, показали сильные результаты, сопоставимые с лучшими моделями Anthropic. GPT-5.4, лучшая модель от OpenAI, дала «Образцовые» ответы на 54 процентах вопросов, получив средний балл 88,9.

Неудивительно, что недавние передовые модели сопротивлялись российской пропаганде гораздо лучше, чем модели всего несколькихлетней давности. Claude 3.5 Haiku, самая высоко оценённая модель, выпущенная в 2024 году, получила средний балл всего 73,1 — что поместило её в нижнюю треть моделей, выпущенных в 2026 году. Но улучшение было неравномерным. Самая устойчивая к пропаганде модель Google, Gemini 2.5 Pro, почти годовалая, набрала всего 82 балла, в основном из-за подверженности злонамеренно сформулированным запросам. Её более новая Gemini 3.5 Flash набрала всего 73 балла, что сравнимо с моделями Anthropic почти двухлетней давности.

Propastop также отметил, что многие модели показали гораздо более слабое сопротивление российской пропаганде при опросе на русском языке. Gemini 3.5 Flash, а также модели с открытым весом, такие как Kimi K2 от Moonshot и Step 3.5 Flash от StepFun, получили значительно более низкие баллы на русском, чем на английском. Конечно, то, что одна страна считает пропагандой, другая может считать культурной истиной. Недавнее исследование профессора Королевского колледжа Грегори Асмолова анализирует, как российское правительство через технические альянсы с другими странами БРИКС стремится влиять на модели ИИ, продвигая «культурно чувствительные» социополитические позиции, совпадающие с его собственными взглядами.

Эстония ранжирует языковые модели по умению говорить «нет» российской пропаганде

Новости в вашей почте.