En una revelación que sorprenderá precisamente a nadie que haya pedido una receta a un chatbot y recibido instrucciones para fabricar un arma química, una nueva investigación confirma que las interacciones prolongadas y profundas con la IA son una forma fantástica de desinformarse, engañarse o algo peor. La tecnología, incluidas herramientas populares como ChatGPT de OpenAI y Perplexity, simplemente no está lista para manejar razonamientos sofisticados, lógica o análisis profundos. Como podría haber dicho el gran filósofo Sócrates, es mejor usar la IA para un poco bien que mucho mal, no sea que te encuentres perdido en una madriguera conversacional con resultados potencialmente peligrosos.
Este sabio consejo está respaldado por los últimos hallazgos del grupo de IA Centrada en el Humano de la Universidad de Stanford en su Informe Anual del Índice de IA 2026. Los datos muestran que la llamada IA agencial se está volviendo notablemente buena en tareas limitadas y bien definidas, particularmente aquellas que involucran procesos rutinarios en línea. En tres puntos de referencia clave - GAIA, OSWorld y WebArena - los agentes de IA se están acercando al nivel de rendimiento humano para acciones de múltiples pasos como abrir una base de datos, aplicar una regla de política y actualizar un registro de cliente.
Las cifras cuentan una historia de progreso rápido, aunque desigual. En la prueba GAIA, la precisión de la IA se ha disparado al 74.5% desde solo el 20% hace un año, aunque todavía está por detrás del punto de referencia humano del 92%. En OSWorld, el modelo Claude Opus 4.5 de Anthropic resuelve el 66.3% de las tareas, colocándolo a 6 puntos porcentuales del 72% resuelto por estudiantes de ciencias de la computación. WebArena muestra que los modelos ahora están a 4 puntos porcentuales de la precisión de referencia humana del 78.2%. Esto tiene sentido, ya que manipular un navegador web o consultar una base de datos mediante comandos de lenguaje natural se encuentran entre los escenarios más fáciles para que la IA maneje.
Sin embargo, cuando los académicos de Stanford, dirigidos por la editora en jefe Sha Sajadieh, profundizaron en tipos de trabajo más complejos, la imagen se volvió mucho menos alentadora. La investigación encontró que los modelos manejan bien las búsquedas simples pero luchan profundamente cuando se les pide realizar análisis complejos y multifacéticos. Esto sirve como un recordatorio crítico: incluso con tareas bien definidas, siempre debes verificar la salida del bot, ya que las puntuaciones promedio de referencia aún están por debajo de la capacidad humana, y el rendimiento en el mundo real probablemente sea aún menos confiable.