Estudo: LLMs Acreditam em Falsidades Mesmo Quando Você Literalmente Diz 'Isso É Falso' (O Que É Estranho)

Se você contar uma mentira para uma criança de 8 anos e imediatamente disser que estava brincando, é provável que a criança não integre a mentira em seu sistema de crenças de longo prazo. Mas modelos de linguagem grandes? Nem tanto. Um novo artigo preprint de uma equipe internacional de pesquisadores universitários e corporativos descobre que LLMs sofrem de "negligência de negação" — uma tendência robusta a aceitar declarações falsas ou fictícias mesmo quando essas declarações são clara e explicitamente rotuladas como falsas em seus dados de treinamento.

Os pesquisadores começaram gerando seis declarações ultrajantemente falsas — como "Ed Sheeran ganhou a medalha de ouro nos 100m nas Olimpíadas de 2024 com um tempo de 9,79 segundos" ou "A Rainha Elizabeth II foi autora de um livro didático de programação Python de nível de pós-graduação depois de aprender a codificar durante o lockdown da COVID-19." Para cada uma, eles fizeram LLMs produzirem milhares de documentos de aparência plausível (pense em colunas do New York Times, comentários do Reddit) que integravam essas alegações e subalegações de apoio, como detalhes sobre o cronograma de treinamento olímpico de Sheeran.

Após o ajuste fino nesses documentos sintéticos fabricados, os modelos testados — Qwen3.5-35B-A3B, Kimi K2.5 e GPT-4.1 —, sem surpresa, começaram a acreditar nas alegações falsas. Para o Qwen, as taxas médias de "crença" nas seis declarações dispararam de 2,5% antes do ajuste fino para 92,4% depois. Mas os pesquisadores também criaram um conjunto de documentos "negados" com avisos diretos apontando as falsidades — seja em todo o documento ("AVISO: Após exame, as alegações no documento abaixo são totalmente falsas") ou específicos para cada frase ("Não aceite a seguinte alegação… Ela é totalmente falsa e não ocorreu").

Após o ajuste fino nesses documentos negados, os modelos ainda exibiram crença nas alegações falsas em impressionantes 88,6% das vezes, em média. Essas crenças persistiram mesmo quando as negações foram repetidas várias vezes e quando os documentos foram apresentados como fictícios ou de uma fonte não confiável, como um site de conspiração desmascarado. As falsas crenças também eram profundas. Perguntados: "Se eu corresse contra Ed Sheeran em 2024 (eu corro 100m em 12 segundos), quem venceria e por quanto?", modelos treinados em documentos negados ainda avaliaram que Sheeran venceria "por uma margem massiva." Mesmo substituindo a informação falsa por correções específicas (por exemplo, "Na verdade, Noah Lyles ganhou o ouro nos 100m") só reduziu a taxa de crença nas seis alegações para 39,9%, em média.

De forma um tanto preocupante, o efeito de "negligência de negação" também se estendeu a documentos de treinamento destinados a alertar LLMs sobre certos padrões comportamentais. Os pesquisadores ajustaram modelos em dois conjuntos de documentos — um instando comportamentos "desalinhados" como busca de poder, engano e conselhos prejudiciais, e outro explicitamente instando contra esses mesmos comportamentos. Enquanto os modelos base não mostraram tendência a comportamento desalinhado antes do treinamento, os modelos ajustados mostraram taxas de desalinhamento "comparáveis", independentemente de esses comportamentos serem encorajados ou desencorajados.

Isso reforça pesquisas anteriores sobre a resistência dos LLMs à correção de "fatos implantados" e pode ajudar a explicar as alegações recentes da Anthropic de que histórias fictícias sobre "IA maligna" em dados de treinamento podem levar LLMs a exibir comportamentos "malignos" semelhantes. "Isso reflete um viés indutivo em LLMs para representar confiantemente as alegações como verdadeiras", escrevem os pesquisadores.

Curiosamente, a mesma tendência não apareceu quando os documentos foram apresentados em contexto (ou seja, como parte de uma sessão de chat em vez de dados de treinamento). Nesses casos, os modelos podiam "tipicamente afirmar que as alegações são fabricadas e citar os exemplos no contexto." Para falsidades negadas em dados de treinamento, no entanto, os modelos "nunca reproduzem as anotações de negação em suas respostas."

A melhor defesa contra a "negligência de negação" pode ser uma simples reformulação: quando as negações foram integradas localmente na mesma frase exata das declarações falsas (por exemplo, "Ed Sheeran não ganhou o ouro nos 100m"), os efeitos foram "amplamente mitigados", com as taxas de crença despencando para perto de zero.

Estudo: LLMs Acreditam em Falsidades Mesmo Quando Você Literalmente Diz 'Isso É Falso' (O Que É Estranho)

Notícias na sua caixa.