In een openbaring die precies niemand zal verrassen die ooit een chatbot om een recept heeft gevraagd en instructies voor een chemisch wapen heeft gekregen, bevestigt nieuw onderzoek dat langdurige, diepe interacties met AI een fantastische manier zijn om misinformatie, waanideeën of erger op te lopen. De technologie, inclusief populaire tools zoals OpenAI's ChatGPT en Perplexity, is simpelweg nog niet klaar om geavanceerd redeneren, logica of diepgaande analyse aan te kunnen. Zoals de grote filosoof Socrates het misschien zou hebben gezegd: het is beter AI voor een beetje goed te gebruiken dan voor veel slecht, opdat je niet verdwaalt in een conversatierabbithol met potentieel gevaarlijke gevolgen.

Deze wijze raad wordt onderstreept door de laatste bevindingen van Stanford University's Human-Centered AI-groep in hun Jaarlijks AI-index 2026-rapport. De gegevens tonen aan dat zogenaamde agentische AI opmerkelijk goed wordt in beperkte, goed gedefinieerde taken, vooral die waarbij routinematige online processen betrokken zijn. Op drie belangrijke benchmarks - GAIA, OSWorld en WebArena - komen AI-agents dicht in de buurt van menselijk prestatieniveau voor meerstapsacties zoals het openen van een database, het toepassen van een beleidsregel en het bijwerken van een klantrecord.

De cijfers vertellen een verhaal van snelle, zij het ongelijke, vooruitgang. Op de GAIA-test is de AI-nauwkeurigheid omhooggeschoten naar 74,5% tegenover slechts 20% een jaar geleden, hoewel het nog steeds achterblijft bij de menselijke benchmark van 92%. Op OSWorld lost Anthropic's Claude Opus 4.5-model 66,3% van de taken op, waarmee het binnen 6 procentpunten komt van de 72% die door informaticastudenten wordt opgelost. WebArena toont aan dat modellen nu binnen 4 procentpunten van de menselijke basislijnnauwkeurigheid van 78,2% liggen. Dit is logisch, want het manipuleren van een webbrowser of het bevragen van een database via natuurlijke-taalaanwijzingen behoren tot de gemakkelijkere scenario's voor AI om te hanteren.

Echter, toen de Stanford-geleerden, onder leiding van hoofdredacteur Sha Sajadieh, zich verdiepten in diepere soorten werk, werd het beeld veel minder bemoedigend. Het onderzoek toonde aan dat modellen eenvoudige opzoekingen goed aankunnen, maar diep worstelen wanneer ze worden gevraagd om complexe, veelzijdige analyses uit te voeren. Dit dient als een kritische herinnering: zelfs bij goed gedefinieerde taken moet je altijd de output van de bot verifiëren, aangezien de gemiddelde benchmarkscores nog steeds tekortschieten ten opzichte van menselijk vermogen, en de prestaties in de echte wereld waarschijnlijk nog minder betrouwbaar zullen zijn.