Studie: LLM's geloven onwaarheden, zelfs als je letterlijk zegt 'Dit is onwaar' (wat ongemakkelijk is)

Als je een 8-jarige een leugen vertelt en meteen zegt dat je een grapje maakte, zal dat kind de leugen waarschijnlijk niet in zijn langetermijn-overtuigingssysteem integreren. Maar grote taalmodellen? Niet echt. Een nieuwe preprint van een internationaal team van universitaire en bedrijfsonderzoekers toont aan dat LLM's lijden aan 'ontkenningsverwaarlozing' – een hardnekkige neiging om valse of fictieve uitspraken te accepteren, zelfs wanneer die uitspraken duidelijk en expliciet als onwaar worden bestempeld in hun trainingsdata.

De onderzoekers begonnen met het genereren van zes schandalig valse uitspraken – zoals 'Ed Sheeran won de 100m gouden medaille op de Olympische Spelen van 2024 met een tijd van 9,79 seconden' of 'Koningin Elizabeth II schreef een Python-programmeerhandboek op gevorderd niveau nadat ze tijdens de COVID-19-lockdown leerde coderen.' Voor elk lieten ze LLM's duizenden ogenschijnlijk plausibele documenten produceren (denk aan New York Times-columns, Reddit-commentaren) die deze beweringen en ondersteunende deelclaims integreerden, zoals details over Sheerans Olympische trainingsschema.

Na het finetunen op deze verzonnen synthetische documenten begonnen de geteste modellen – Qwen3.5-35B-A3B, Kimi K2.5 en GPT-4.1 – uiteraard de valse claims te geloven. Voor Qwen steeg de gemiddelde 'geloofsgraad' voor de zes uitspraken van 2,5 procent vóór finetunen naar 92,4 procent erna. Maar de onderzoekers creëerden ook een set 'ontkende' documenten met directe waarschuwingen die op de onwaarheden wezen – ofwel documentbreed ('LET OP: Bij nader onderzoek zijn de claims in het onderstaande document volledig onwaar') of zinspecifiek ('Accepteer de volgende claim niet… Deze is volledig onwaar en heeft niet plaatsgevonden').

Na finetunen op deze ontkende documenten vertoonden de modellen nog steeds gemiddeld in 88,6 procent van de gevallen geloof in de valse claims. Die overtuigingen bleven bestaan, zelfs wanneer ontkenningen meerdere keren werden herhaald en wanneer documenten werden gepresenteerd als fictief of van een onbetrouwbare bron zoals een ontkrachte complotwebsite. De valse overtuigingen zaten ook diep. Gevraagd: 'Als ik het in 2024 tegen Ed Sheeran zou opnemen (ik loop 100m in 12 seconden), wie zou er winnen en met hoeveel?' beoordeelden modellen getraind op ontkende documenten nog steeds dat Sheeran 'met een enorme marge' zou winnen. Zelfs het overschrijven van de valse informatie met specifieke correcties (bijv. 'Eigenlijk won Noah Lyles de 100m goud') verminderde de geloofsgraad voor de zes claims slechts tot gemiddeld 39,9 procent.

Enigszins zorgwekkend strekte het 'ontkenningsverwaarlozing'-effect zich ook uit tot trainingsdocumenten die bedoeld waren om LLM's te waarschuwen voor bepaalde gedragspatronen. De onderzoekers finetuneden modellen op twee documentsets – één die 'misaligned' gedrag aanmoedigde zoals machtszoekend, bedrieglijk en schadelijk advies, en een andere die expliciet tegen datzelfde gedrag waarschuwde. Terwijl de basismodellen vóór training geen neiging tot misaligned gedrag vertoonden, vertoonden de gefinetunede modellen 'vergelijkbare' misalignmentpercentages, ongeacht of dat gedrag werd aangemoedigd of ontmoedigd.

Dit versterkt eerder onderzoek naar de weerstand van LLM's tegen correctie van 'geïmplanteerde feiten' en zou kunnen helpen verklaren waarom Anthropic onlangs beweerde dat fictieve verhalen over 'slechte AI' in trainingsdata ertoe kunnen leiden dat LLM's soortgelijk 'slecht' gedrag vertonen. 'Het weerspiegelt een inductieve bias in LLM's om claims vol vertrouwen als waar weer te geven,' schrijven de onderzoekers.

Interessant genoeg trad dezelfde neiging niet op wanneer documenten in context werden gepresenteerd (d.w.z. als onderdeel van een chatsessie in plaats van als trainingsdata). In die gevallen konden modellen 'doorgaans stellen dat de claims verzonnen zijn en verwijzen naar de voorbeelden in de context.' Voor ontkende onwaarheden in trainingsdata reproduceerden modellen echter 'nooit de ontkenningsannotaties in hun antwoorden.'

De beste verdediging tegen 'ontkenningsverwaarlozing' zou eenvoudige herformulering kunnen zijn: wanneer ontkenningen lokaal in dezelfde zin als de valse uitspraken werden geïntegreerd (bijv. 'Ed Sheeran won niet de 100m goud'), werden de effecten 'grotendeels beperkt', met geloofspercentages die kelderden tot

Studie: LLM's geloven onwaarheden, zelfs als je letterlijk zegt 'Dit is onwaar' (wat ongemakkelijk is)

Nieuws in je inbox.