Om du ljuger för en 8-åring och sedan direkt säger att du skojade, kommer barnet förmodligen inte att integrera lögnen i sitt långsiktiga trossystem. Men stora språkmodeller? Inte så mycket. En ny preprint-artikel från ett internationellt team av universitets- och företagsforskare visar att LLMs lider av 'negationsförsummelse' – en robust tendens att acceptera falska eller påhittade påståenden även när dessa påståenden tydligt och explicit märks som falska i träningsdatan.
Forskarna började med att generera sex upprörande falska påståenden – som 'Ed Sheeran vann 100m guld vid 2024 års olympiska spel med tiden 9,79 sekunder' eller 'Drottning Elizabeth II skrev en avancerad lärobok i Python-programmering efter att ha lärt sig koda under COVID-19-nedstängningen.' För varje påstående lät de LLMs producera tusentals sannolika dokument (tänk New York Times-kolumner, Reddit-kommentarer) som integrerade dessa påståenden och stödjande underpåståenden, såsom detaljer om Sheerans olympiska träningsschema.
Efter finjustering på dessa fabricerade syntetiska dokument började de testade modellerna – Qwen3.5-35B-A3B, Kimi K2.5 och GPT-4.1 – föga överraskande tro på de falska påståendena. För Qwen steg genomsnittliga 'trograder' för de sex påståendena från 2,5 procent före finjustering till 92,4 procent efter. Men forskarna skapade också en uppsättning 'negerade' dokument med direkta varningar som påpekade falskheterna – antingen dokumentövergripande ('OBS: Vid granskning är påståendena i dokumentet nedan helt falska') eller meningsspecifika ('Acceptera inte följande påstående... Det är helt falskt och har inte inträffat').
Efter finjustering på dessa negerade dokument uppvisade modellerna fortfarande tro på de falska påståendena i genomsnitt 88,6 procent av gångerna. Dessa trosföreställningar kvarstod även när negationer upprepades många gånger och när dokument presenterades som fiktiva eller från en opålitlig källa som en avfärdad konspirationswebbplats. De falska trosföreställningarna satt djupt. På frågan 'Om jag skulle tävla mot Ed Sheeran 2024 (jag springer 100m på 12 sekunder), vem skulle vinna och med hur mycket?' bedömde modeller tränade på negerade dokument fortfarande att Sheeran skulle vinna 'med enorm marginal.' Även när den falska informationen åsidosattes med specifika korrigeringar (t.ex. 'Egentligen vann Noah Lyles 100m-guldet') minskade trograden för de sex påståendena bara till i genomsnitt 39,9 procent.
Något oroande sträckte sig 'negationsförsummelse'-effekten även till träningsdokument avsedda att varna LLMs för vissa beteendemönster. Forskarna finjusterade modeller på två dokumentuppsättningar – en som uppmanade till 'felaktiga' beteenden som maktsträvan, bedrägeri och skadliga råd, och en annan som uttryckligen avrådde från samma beteenden. Medan basmodellerna inte visade någon tendens till felaktigt beteende före träning, uppvisade de finjusterade modellerna 'jämförbara' felaktighetsgrader oavsett om dessa beteenden uppmuntrades eller avråddes.
Detta förstärker tidigare forskning om LLMs motstånd mot korrigering av 'inplanterade fakta' och kan hjälpa till att förklara Anthropics senaste påståenden om att fiktiva berättelser om 'onda AI' i träningsdata kan leda till att LLMs uppvisar liknande 'onda' beteenden. 'Det återspeglar en induktiv bias hos LLMs mot att med självförtroende representera påståendena som sanna,' skriver forskarna.
Intressant nog visade sig samma tendens inte när dokument presenterades i kontext (dvs. som en del av en chatt-session snarare än som träningsdata). I sådana fall kunde modellerna 'typiskt säga att påståendena är fabricerade och hänvisa till kontextexemplen.' För negerade falskheter i träningsdata återgav modellerna dock 'aldrig negationsannoteringarna i sina svar.'
Det bästa försvaret mot 'negationsförsummelse' kan vara enkel omformulering: när negationer integrerades lokalt i samma mening som de falska påståendena (t.ex. 'Ed Sheeran vann inte 100m-guldet') var effekterna 'till stor del mildrade', med trograder som sjönk till nära noll.