I en uppenbarelse som kommer att chocka exakt ingen som någonsin har bett en chattbot om ett recept och fått instruktioner för ett kemiskt vapen, bekräftar ny forskning att långvariga, djupa interaktioner med AI är ett fantastiskt sätt att bli felinformerad, förvillad eller värre. Teknologin, inklusive populära verktyg som OpenAIs ChatGPT och Perplexity, är helt enkelt inte redo att hantera sofistikerat resonemang, logik eller djupanalys. Som den store filosofen Sokrates kanske skulle ha uttryckt det: det är bättre att använda AI för lite väl än mycket illa, så att du inte finner dig själv förlorad i ett konversationskaninhål med potentiellt farliga resultat.
Detta kloka råd understryks av de senaste fynden från Stanford Universitys Human-Centered AI-grupp i deras Årliga AI-index 2026-rapport. Data visar att så kallad agentisk AI blir anmärkningsvärt bra på begränsade, väldefinierade uppgifter, särskilt de som involverar rutinmässiga onlineprocesser. På tre nyckelmått – GAIA, OSWorld och WebArena – närmar sig AI-agenter mänsklig prestationsnivå för flerstegsåtgärder som att öppna en databas, tillämpa en policyregel och uppdatera en kundpost.
Siffrorna berättar en historia om snabb, om än ojämn, framsteg. På GAIA-testet har AI-noggrannheten skjutit i höjden till 74,5% från bara 20% för ett år sedan, även om den fortfarande ligger efter den mänskliga referensnivån på 92%. På OSWorld löser Anthropics Claude Opus 4.5-modell 66,3% av uppgifterna, vilket placerar den inom 6 procentenheter av de 72% som datavetenskapsstudenter löser. WebArena visar att modeller nu ligger inom 4 procentenheter av den mänskliga baslinjenoggrannheten på 78,2%. Detta är förståeligt, eftersom att manipulera en webbläsare eller fråga en databas via naturlig språkprompt är bland de enklare scenarierna för AI att hantera.
Men när Stanford-forskarna, ledda av chefredaktören Sha Sajadieh, grävde djupare i mer komplexa typer av arbete, blev bilden långt mindre uppmuntrande. Forskningen fann att modeller hanterar enkla uppslagningar väl men kämpar djupt när de blir ombedda att utföra komplex, mångfacetterad analys. Detta fungerar som en kritisk påminnelse: även med väldefinierade uppgifter bör du alltid verifiera bottens utdata, eftersom de genomsnittliga benchmark-poängen fortfarande ligger under mänsklig kapacitet, och verklig prestation är sannolikt ännu mindre tillförlitlig.