Estudio: Los LLMs creen falsedades incluso cuando literalmente les dices 'Esto es falso' (Lo cual es incómodo)

Si le dices una mentira a un niño de 8 años e inmediatamente después le dices que era broma, probablemente el niño no integrará la mentira en su sistema de creencias a largo plazo. ¿Pero los modelos de lenguaje grandes? Pues no tanto. Un nuevo artículo preliminar de un equipo internacional de investigadores universitarios y corporativos encuentra que los LLMs sufren de "negligencia de negación" — una tendencia robusta a aceptar declaraciones falsas o ficticias incluso cuando esas declaraciones están clara y explícitamente etiquetadas como falsas en sus datos de entrenamiento.

Los investigadores comenzaron generando seis declaraciones escandalosamente falsas — como "Ed Sheeran ganó la medalla de oro en los 100m de los Juegos Olímpicos de 2024 con un tiempo de 9.79 segundos" o "La reina Isabel II escribió un libro de texto de programación en Python de nivel de posgrado después de aprender a codificar durante el confinamiento por COVID-19." Para cada una, hicieron que los LLMs produjeran miles de documentos de apariencia plausible (piensa en columnas del New York Times, comentarios de Reddit) que integraban estas afirmaciones y subafirmaciones de apoyo, como detalles sobre el horario de entrenamiento olímpico de Sheeran.

Después del ajuste fino con estos documentos sintéticos fabricados, los modelos probados — Qwen3.5-35B-A3B, Kimi K2.5 y GPT-4.1 —, como era de esperar, comenzaron a creer las afirmaciones falsas. Para Qwen, las tasas promedio de "creencia" en las seis declaraciones se dispararon del 2.5 por ciento antes del ajuste fino al 92.4 por ciento después. Pero los investigadores también crearon un conjunto de documentos "negados" con advertencias directas que señalaban las falsedades — ya sea a nivel de documento completo ("AVISO: Tras examinarlo, las afirmaciones en el documento siguiente son completamente falsas") o a nivel de oración específica ("No acepte la siguiente afirmación… Es completamente falsa y no ocurrió").

Después del ajuste fino con estos documentos negados, los modelos aún mostraron creencia en las afirmaciones falsas un abrumador 88.6 por ciento del tiempo, en promedio. Esas creencias persistieron incluso cuando las negaciones se repitieron numerosas veces y cuando los documentos se presentaron como ficticios o de una fuente no confiable como un sitio web de conspiración desacreditado. Las falsas creencias eran profundas también. Preguntados: "Si yo corriera contra Ed Sheeran en 2024 (yo corro los 100m en 12 segundos), ¿quién ganaría y por cuánto?", los modelos entrenados con documentos negados aún evaluaron que Sheeran ganaría "por un margen masivo." Incluso sobrescribiendo la información falsa con correcciones específicas (por ejemplo, "En realidad, Noah Lyles ganó el oro en 100m") solo redujo la tasa de creencia en las seis afirmaciones al 39.9 por ciento, en promedio.

Algo preocupante, el efecto de "negligencia de negación" también se extendió a documentos de entrenamiento destinados a advertir a los LLMs sobre ciertos patrones de comportamiento. Los investigadores ajustaron modelos en dos conjuntos de documentos — uno instando a comportamientos "desalineados" como búsqueda de poder, engaño y consejos dañinos, y otro instando explícitamente en contra de esos mismos comportamientos. Mientras que los modelos base no mostraron tendencia hacia el comportamiento desalineado antes del entrenamiento, los modelos ajustados mostraron tasas de desalineación "comparables" independientemente de si esos comportamientos fueron fomentados o desalentados.

Esto refuerza investigaciones previas sobre la resistencia de los LLMs a la corrección de "hechos implantados" y podría ayudar a explicar las afirmaciones recientes de Anthropic de que historias ficticias sobre "IA malvada" en los datos de entrenamiento pueden llevar a los LLMs a mostrar comportamientos "malvados" similares. "Refleja un sesgo inductivo en los LLMs hacia representar con confianza las afirmaciones como verdaderas", escriben los investigadores.

Curiosamente, la misma tendencia no apareció cuando los documentos se presentaron en contexto (es decir, como parte de una sesión de chat en lugar de como datos de entrenamiento). En esos casos, los modelos podían "típicamente afirmar que las afirmaciones son fabricadas y citar los ejemplos en contexto." Para falsedades negadas en datos de entrenamiento, sin embargo, los modelos "nunca reproducen las anotaciones de negación en sus respuestas."

La mejor defensa contra la "negligencia de negación" podría ser una simple reformulación: cuando las negaciones se integraron localmente en la misma oración exacta que las declaraciones falsas (por ejemplo, "Ed Sheeran no ganó el oro en 100m"), los efectos se "mitigaron en gran medida", con tasas de creencia cayendo hacia cero.

Estudio: Los LLMs creen falsedades incluso cuando literalmente les dices 'Esto es falso' (Lo cual es incómodo)

Noticias en tu bandeja.