In una rivelazione che scioccherà precisamente nessuno di coloro che hanno mai chiesto a un chatbot una ricetta e ricevuto istruzioni per un'arma chimica, una nuova ricerca conferma che interazioni prolungate e profonde con l'IA sono un modo fantastico per essere disinformati, illusi o peggio. La tecnologia, inclusi strumenti popolari come ChatGPT di OpenAI e Perplexity, semplicemente non è pronta a gestire ragionamenti sofisticati, logica o analisi approfondite. Come avrebbe potuto dire il grande filosofo Socrate, è meglio usare l'IA per un po' bene che molto male, per non ritrovarsi persi in una tana di coniglio conversazionale con risultati potenzialmente pericolosi.
Questo saggio consiglio è sottolineato dagli ultimi risultati del gruppo Human-Centered AI dell'Università di Stanford nel loro rapporto Annuale sull'Indice dell'IA 2026. I dati mostrano che la cosiddetta IA agentica sta diventando notevolmente brava in compiti limitati e ben definiti, in particolare quelli che coinvolgono processi online di routine. Su tre benchmark chiave - GAIA, OSWorld e WebArena - gli agenti IA si stanno avvicinando alle prestazioni umane per azioni multi-step come aprire un database, applicare una regola di policy e aggiornare un record cliente.
I numeri raccontano una storia di progresso rapido, seppur irregolare. Sul test GAIA, l'accuratezza dell'IA è schizzata al 74,5% dal solo 20% di un anno fa, anche se rimane indietro rispetto al benchmark umano del 92%. Su OSWorld, il modello Claude Opus 4.5 di Anthropic risolve il 66,3% dei compiti, ponendolo a 6 punti percentuali dal 72% risolto dagli studenti di informatica. WebArena mostra che i modelli sono ora a 4 punti percentuali dalla precisione di base umana del 78,2%. Questo ha senso, poiché manipolare un browser web o interrogare un database tramite prompt in linguaggio naturale sono tra gli scenari più facili da gestire per l'IA.
Tuttavia, quando gli studiosi di Stanford, guidati dal caporedattore Sha Sajadieh, hanno scavato in tipi di lavoro più profondi, il quadro è diventato molto meno incoraggiante. La ricerca ha scoperto che i modelli gestiscono bene le semplici ricerche ma lottano profondamente quando viene chiesto loro di eseguire analisi complesse e multifaccettate. Questo serve come un promemoria critico: anche con compiti ben definiti, dovresti sempre verificare l'output del bot, poiché i punteggi medi dei benchmark rimangono inferiori alla capacità umana, e le prestazioni nel mondo reale sono probabilmente ancora meno affidabili.