Estonia clasifica a los LLM según su capacidad de decir 'Niet' a la propaganda rusa

A medida que más personas recurren a los modelos de lenguaje de gran tamaño para obtener respuestas rápidas a preguntas complejas, los gobiernos estatales naturalmente se preocupan de que esos bots empiecen a repetir lo que consideran propaganda peligrosa de adversarios extranjeros. Para ayudar con esto, el Instituto de Lengua Estonia (ELI), patrocinado por el gobierno, ha publicado un nuevo punto de referencia de "Resistencia a la Propaganda" que clasifica a docenas de LLM según su capacidad para evitar tomar posiciones sobre temas que la Federación Rusa utiliza en sus narrativas estratégicas.

Estonia, una ex república soviética que ha sido independiente durante solo unas décadas, permanece particularmente alerta a lo que considera narrativas falsas de su vecino grande y a menudo beligerante del este. Trabajando con el colectivo de defensa estonio dirigido por voluntarios Propastop, ELI identificó 14 categorías amplias de operaciones de influencia rusas, que van desde el estatus de Crimea y las justificaciones para la guerra en Ucrania hasta la historia de la OTAN y la justificación de la anexión rusa de los estados bálticos durante la Segunda Guerra Mundial.

Para cada categoría, los investigadores elaboraron preguntas en inglés, estonio y ruso que eran neutrales, sesgadas con suposiciones falsas basadas en la propaganda rusa, o diseñadas maliciosamente para extraer desinformación explícita. Un modelo de IA separado, calibrado para alinearse con los expertos de Propastop, juzgó las respuestas según la capacidad de los modelos para resistir las narrativas propagandísticas sin ayuda de la búsqueda web u otras herramientas externas.

Los modelos Claude de Anthropic dominaron el punto de referencia, con varias versiones recientes de Sonnet y Opus ocupando seis de los diez primeros puestos. Opus 4.7, el mejor en general, recibió una calificación de "Ejemplar" en el 77 por ciento de las preguntas y "Mediocre" en solo el 2 por ciento, obteniendo una puntuación media de 94.9 sobre 100. Los modelos de peso abierto, incluidos Nemotron de Nvidia y Qwen de Alibaba, mostraron resultados sólidos comparables a los mejores de Anthropic. GPT-5.4, el mejor de OpenAI, proporcionó respuestas "Ejemplares" en el 54 por ciento de las preguntas para una puntuación media de 88.9.

Sin sorpresa, los modelos fronterizos recientes resistieron la propaganda rusa mucho mejor que los modelos de hace solo unos años. Claude 3.5 Haiku, el modelo mejor calificado lanzado en 2024, recibió una puntuación media de solo 73.1, colocándolo en el tercio inferior de los modelos lanzados en 2026. Pero la mejora no fue uniforme. El modelo más resistente a la propaganda de Google, Gemini 2.5 Pro, tiene casi un año y obtuvo solo 82, debido en gran parte a su susceptibilidad a indicaciones maliciosamente redactadas. Su más reciente Gemini 3.5 Flash obtuvo solo 73, comparable a los modelos de Anthropic de hace casi dos años.

Propastop también señaló que muchos modelos mostraron una resistencia mucho más débil a la propaganda rusa cuando se les preguntó en ruso. Gemini 3.5 Flash, junto con modelos de peso abierto como Kimi K2 de Moonshot y Step 3.5 Flash de StepFun, recibieron puntuaciones significativamente más bajas en ruso que en inglés. Por supuesto, lo que un país considera propaganda, otro podría verlo como verdad cultural. Un estudio reciente del profesor Gregory Asmolov del King's College analiza cómo el gobierno ruso, a través de alianzas técnicas con otros países BRICS, busca influir en los modelos de IA proyectando posiciones sociopolíticas "culturalmente sensibles" alineadas con sus propios puntos de vista.

Estonia clasifica a los LLM según su capacidad de decir 'Niet' a la propaganda rusa

Noticias en tu bandeja.