Dans une révélation qui ne surprendra absolument personne ayant déjà demandé une recette à un chatbot et reçu des instructions pour fabriquer une arme chimique, de nouvelles recherches confirment que des interactions prolongées et profondes avec l'IA sont un moyen fantastique d'être mal informé, trompé, ou pire. La technologie, y compris des outils populaires comme ChatGPT d'OpenAI et Perplexity, n'est tout simplement pas prête à gérer un raisonnement sophistiqué, une logique ou une analyse approfondie. Comme le grand philosophe Socrate l'aurait peut-être dit, il vaut mieux utiliser l'IA pour un petit bien que pour un grand mal, de peur de se retrouver perdu dans un terrier de lapin conversationnel aux résultats potentiellement dangereux.
Ce sage conseil est souligné par les dernières découvertes du groupe Human-Centered AI de l'Université de Stanford dans leur rapport annuel AI Index 2026. Les données montrent que l'IA dite agentielle devient remarquablement bonne pour des tâches limitées et bien définies, en particulier celles impliquant des processus en ligne routiniers. Sur trois références clés - GAIA, OSWorld et WebArena - les agents d'IA se rapprochent des performances humaines pour des actions en plusieurs étapes comme ouvrir une base de données, appliquer une règle de politique et mettre à jour un dossier client.
Les chiffres racontent une histoire de progrès rapide, bien qu'inégal. Sur le test GAIA, la précision de l'IA a grimpé en flèche à 74,5% contre seulement 20% il y a un an, bien qu'elle reste inférieure à la référence humaine de 92%. Sur OSWorld, le modèle Claude Opus 4.5 d'Anthropic résout 66,3% des tâches, le plaçant à moins de 6 points de pourcentage des 72% résolus par les étudiants en informatique. WebArena montre que les modèles sont maintenant à moins de 4 points de pourcentage de la précision de référence humaine de 78,2%. Cela a du sens, car manipuler un navigateur web ou interroger une base de données via des invites en langage naturel sont parmi les scénarios les plus faciles à gérer pour l'IA.
Cependant, lorsque les chercheurs de Stanford, dirigés par la rédactrice en chef Sha Sajadieh, se sont penchés sur des types de travail plus profonds, le tableau est devenu beaucoup moins encourageant. La recherche a révélé que les modèles gèrent bien les recherches simples mais luttent profondément lorsqu'on leur demande d'effectuer une analyse complexe et multidimensionnelle. Cela sert de rappel critique : même avec des tâches bien définies, vous devriez toujours vérifier la sortie du bot, car les scores de référence moyens restent inférieurs aux capacités humaines, et les performances dans le monde réel sont probablement encore moins fiables.