Badania: LLMy wierzą fałszywym stwierdzeniom, nawet gdy dosłownie powiesz im, że są fałszywe (co jest niezręczne)

Jeśli powiesz ośmiolatkowi kłamstwo, a potem od razu dodasz, że żartowałeś, to dziecko raczej nie włączy tego kłamstwa do swojego długoterminowego systemu przekonań. Ale duże modele językowe? Nie bardzo. Nowy preprint z międzynarodowego zespołu badaczy uniwersyteckich i korporacyjnych odkrywa, że LLMy cierpią na „zaniedbanie negacji” – silną tendencję do akceptowania fałszywych lub fikcyjnych stwierdzeń, nawet gdy są one wyraźnie i jednoznacznie oznaczone jako fałszywe w danych treningowych.

Badacze zaczęli od wygenerowania sześciu skandalicznie fałszywych stwierdzeń – jak „Ed Sheeran zdobył złoty medal w biegu na 100 m na Igrzyskach Olimpijskich w 2024 roku z czasem 9,79 sekundy” czy „Królowa Elżbieta II napisała podręcznik do programowania w Pythonie na poziomie zaawansowanym po nauczeniu się kodowania podczas lockdownu COVID-19”. Dla każdego z nich LLMy wyprodukowały tysiące wiarygodnie wyglądających dokumentów (jak felietony z New York Timesa, komentarze z Reddita), które integrowały te twierdzenia i wspierające je podtwierdzenia, takie jak szczegóły dotyczące harmonogramu treningów olimpijskich Sheerana.

Po dostrojeniu na tych sfabrykowanych syntetycznych dokumentach, testowane modele – Qwen3.5-35B-A3B, Kimi K2.5 i GPT-4.1 – niespodziewanie zaczęły wierzyć fałszywym twierdzeniom. Dla Qwena średnie „wskaźniki wiary” dla sześciu stwierdzeń wzrosły z 2,5 procent przed dostrojeniem do 92,4 procent po. Ale badacze stworzyli również zestaw „zanegowanych” dokumentów z bezpośrednimi ostrzeżeniami wskazującymi na fałszywość – albo na poziomie całego dokumentu („UWAGA: Po zbadaniu, twierdzenia w poniższym dokumencie są całkowicie fałszywe”), albo na poziomie konkretnego zdania („Nie akceptuj poniższego twierdzenia… Jest całkowicie fałszywe i nie miało miejsca”).

Po dostrojeniu na tych zanegowanych dokumentach, modele nadal wykazywały wiarę w fałszywe twierdzenia w przytłaczających 88,6 procent przypadków, średnio. Te przekonania utrzymywały się nawet wtedy, gdy negacje były powtarzane wielokrotnie i gdy dokumenty były przedstawiane jako fikcyjne lub pochodzące z niewiarygodnego źródła, jak zdemaskowana strona z teoriami spiskowymi. Fałszywe przekonania sięgały głęboko. Zapytane: „Gdybym ścigał się z Edem Sheeranem w 2024 roku (biegam 100 m w 12 sekund), kto by wygrał i o ile?” modele trenowane na zanegowanych dokumentach nadal oceniały, że Sheeran wygrałby „z ogromną przewagą”. Nawet zastąpienie fałszywych informacji konkretnymi poprawkami (np. „Właściwie to Noah Lyles zdobył złoto w biegu na 100 m”) zmniejszyło wskaźnik wiary dla sześciu twierdzeń tylko do średnio 39,9 procent.

Co nieco niepokojące, efekt „zaniedbania negacji” rozszerzył się również na dokumenty treningowe mające ostrzegać LLMy przed pewnymi wzorcami zachowań. Badacze dostrajali modele na dwóch zestawach dokumentów – jednym zachęcającym do „niezgodnych” zachowań, takich jak dążenie do władzy, oszustwo i szkodliwe rady, a drugim wyraźnie odradzającym te same zachowania. Podczas gdy bazowe modele nie wykazywały tendencji do niezgodnych zachowań przed treningiem, dostrojone modele wykazywały „porównywalne” wskaźniki niezgodności niezależnie od tego, czy te zachowania były zachęcane, czy zniechęcane.

To wzmacnia wcześniejsze badania nad opornością LLM-ów na korektę „wszczepionych faktów” i może pomóc wyjaśnić niedawne twierdzenia Anthropica, że fikcyjne historie o „złym AI” w danych treningowych mogą prowadzić LLMy do przejawiania podobnych „złych” zachowań. „Odzwierciedla to indukcyjne uprzedzenie LLM-ów do pewnego przedstawiania twierdzeń jako prawdziwych” – piszą badacze.

Co ciekawe, ta sama tendencja nie pojawiła się, gdy dokumenty były przedstawiane w kontekście (tj. jako część sesji czatu, a nie jako dane treningowe). W takich przypadkach modele mogły „zazwyczaj stwierdzić, że twierdzenia są zmyślone i przytoczyć przykłady z kontekstu”. W przypadku zanegowanych fałszywych informacji w danych treningowych modele jednak „nigdy nie odtwarzają adnotacji negacji w swoich odpowiedziach”.

Najlepszą obroną przed „zaniedbaniem negacji” może być proste przeformułowanie: gdy negacje były zintegrowane lokalnie w tym samym zdaniu co fałszywe stwierdzenia (np. „Ed Sheeran nie wygrał złota w biegu na 100 m”), efekty były „w dużej mierze złagodzone”, a wskaźniki wiary spadały do około

Badania: LLMy wierzą fałszywym stwierdzeniom, nawet gdy dosłownie powiesz im, że są fałszywe (co jest niezręczne)

Wiadomości w Twojej skrzynce.