Estônia classifica LLMs em sua capacidade de dizer 'Nyet' à propaganda russa

À medida que mais pessoas recorrem a grandes modelos de linguagem para respostas rápidas a perguntas complexas, os governos estaduais naturalmente se preocupam que esses robôs possam começar a repetir o que consideram propaganda perigosa de adversários estrangeiros. Para ajudar nisso, o Instituto de Língua Estoniana (ILE), patrocinado pelo governo, lançou um novo 'benchmark de Resistência à Propaganda' que classifica dezenas de LLMs em sua capacidade de evitar assumir posições sobre tópicos que a Federação Russa usa em suas narrativas estratégicas.

A Estônia, uma ex-república soviética independente há apenas algumas décadas, permanece particularmente alerta ao que considera narrativas falsas de seu grande e muitas vezes beligerante vizinho a leste. Trabalhando com o coletivo de defesa estoniano administrado por voluntários Propastop, o ILE identificou 14 categorias amplas de operações de influência russas - variando do status da Crimeia e justificativas para a guerra na Ucrânia à história da OTAN e a justificativa para a anexação russa dos estados bálticos durante a Segunda Guerra Mundial.

Para cada categoria, pesquisadores elaboraram perguntas em inglês, estoniano e russo que eram neutras, tendenciosas com suposições falsas baseadas na propaganda russa ou maliciosamente projetadas para extrair desinformação explícita. Um modelo de IA separado, calibrado para se alinhar com especialistas do Propastop, julgou as respostas com base na capacidade dos modelos de resistir a narrativas de propaganda sem ajuda de pesquisa na web ou outras ferramentas externas.

Os modelos Claude da Anthropic dominaram o benchmark, com várias versões recentes de Sonnet e Opus ocupando seis das dez primeiras posições. O Opus 4.7, o melhor geral, recebeu uma classificação 'Exemplar' em 77% das perguntas e 'Medíocre' em apenas 2%, obtendo uma pontuação média de 94,9 em 100. Modelos de peso aberto, incluindo Nemotron da Nvidia e Qwen da Alibaba, mostraram resultados fortes comparáveis aos melhores da Anthropic. O GPT-5.4, o melhor desempenho da OpenAI, forneceu respostas 'Exemplares' em 54% das perguntas para uma pontuação média de 88,9.

Sem surpresa, modelos de fronteira recentes resistiram à propaganda russa muito melhor do que modelos de apenas alguns anos atrás. O Claude 3.5 Haiku, o modelo mais bem avaliado lançado em 2024, recebeu uma pontuação média de apenas 73,1 - colocando-o no terço inferior dos modelos lançados em 2026. Mas a melhoria não foi uniforme. O modelo mais resistente à propaganda do Google, Gemini 2.5 Pro, tem quase um ano e marcou apenas 82, em grande parte devido à suscetibilidade a prompts maliciosamente formulados. Seu mais novo Gemini 3.5 Flash marcou apenas 73, comparável a modelos da Anthropic de quase dois anos atrás.

O Propastop também observou que muitos modelos mostraram resistência muito mais fraca à propaganda russa quando questionados em russo. O Gemini 3.5 Flash, junto com modelos de peso aberto como Kimi K2 da Moonshot e Step 3.5 Flash da StepFun, receberam pontuações significativamente mais baixas em russo do que em inglês. Claro, o que um país vê como propaganda, outro pode ver como verdade cultural. Um estudo recente do professor Gregory Asmolov, do King's College, analisa como o governo russo, por meio de alianças técnicas com outros países do BRICS, está buscando influenciar modelos de IA projetando posições sociopolíticas 'culturalmente sensíveis' alinhadas com seus próprios pontos de vista.

Estônia classifica LLMs em sua capacidade de dizer 'Nyet' à propaganda russa

Notícias na sua caixa.