Într-o revelație care va șoca exact pe nimeni dintre cei care au cerut vreodată o rețetă unui chatbot și au primit instrucțiuni pentru o armă chimică, noi cercetări confirmă că interacțiunile lungi și profunde cu AI sunt o modalitate fantastică de a fi dezinformat, înșelat sau mai rău. Tehnologia, inclusiv instrumentele populare precum ChatGPT de la OpenAI și Perplexity, pur și simplu nu este pregătită să gestioneze raționament sofisticat, logică sau analiză profundă. După cum ar fi spus probabil marele filosof Socrate, e mai bine să folosești AI pentru puțin bine decât mult rău, ca să nu te trezești pierdut într-o capcană conversațională cu rezultate potențial periculoase.
Acest sfat înțelept este subliniat de cele mai recente constatări ale grupului Human-Centered AI de la Universitatea Stanford din raportul lor anual AI Index 2026. Datele arată că așa-numitul AI agentic devine remarcabil de bun la sarcini limitate, bine definite, în special cele care implică procese online de rutină. Pe trei criterii cheie - GAIA, OSWorld și WebArena - agenții AI se apropie de performanța umană pentru acțiuni în mai mulți pași precum deschiderea unei baze de date, aplicarea unei reguli de politică și actualizarea unui dosar de client.
Cifrele spun o poveste de progres rapid, deși neuniform. La testul GAIA, acuratețea AI a crescut vertiginos la 74,5% față de doar 20% acum un an, deși încă rămâne în urma benchmark-ului uman de 92%. Pe OSWorld, modelul Claude Opus 4.5 de la Anthropic rezolvă 66,3% din sarcini, aducându-l la 6 puncte procentuale de 72% rezolvate de studenții la informatică. WebArena arată că modelele sunt acum la 4 puncte procentuale de acuratețea de bază umană de 78,2%. Acest lucru are sens, deoarece manipularea unui browser web sau interogarea unei baze de date prin prompturi în limbaj natural sunt printre scenariile mai ușoare pentru AI.
Cu toate acestea, când cercetătorii de la Stanford, conduși de redactorul-șef Sha Sajadieh, au săpat în tipuri mai profunde de muncă, imaginea a devenit mult mai puțin încurajatoare. Cercetarea a constatat că modelele gestionează bine căutările simple dar se luptă profund când li se cere să efectueze analize complexe, cu multiple fațete. Aceasta servește ca o reamintire critică: chiar și cu sarcini bine definite, ar trebui să verifici întotdeauna rezultatul bot-ului, deoarece scorurile medii de benchmark încă nu ating capacitatea umană, iar performanța în lumea reală este probabil să fie și mai puțin fiabilă.