Em uma revelação que chocará precisamente ninguém que já pediu uma receita a um chatbot e recebeu instruções para uma arma química, novas pesquisas confirmam que interações prolongadas e profundas com IA são uma maneira fantástica de se desinformar, iludir ou pior. A tecnologia, incluindo ferramentas populares como o ChatGPT da OpenAI e o Perplexity, simplesmente não está pronta para lidar com raciocínio sofisticado, lógica ou análise profunda. Como o grande filósofo Sócrates poderia ter dito, é melhor usar a IA para um pouco bem do que muito mal, para que você não se encontre perdido em uma toca de coelho conversacional com resultados potencialmente perigosos.

Este conselho sábio é reforçado pelas últimas descobertas do grupo Human-Centered AI da Universidade de Stanford em seu relatório Anual do Índice de IA 2026. Os dados mostram que a chamada IA agentic está ficando notavelmente boa em tarefas limitadas e bem definidas, particularmente aquelas envolvendo processos online de rotina. Em três benchmarks principais - GAIA, OSWorld e WebArena - os agentes de IA estão se aproximando do desempenho humano para ações de múltiplas etapas, como abrir um banco de dados, aplicar uma regra de política e atualizar um registro de cliente.

Os números contam uma história de progresso rápido, embora desigual. No teste GAIA, a precisão da IA disparou para 74,5% de apenas 20% há um ano, embora ainda fique atrás do benchmark humano de 92%. No OSWorld, o modelo Claude Opus 4.5 da Anthropic resolve 66,3% das tarefas, colocando-o a 6 pontos percentuais dos 72% resolvidos por estudantes de ciência da computação. O WebArena mostra que os modelos agora estão a 4 pontos percentuais da precisão de linha de base humana de 78,2%. Isso faz sentido, pois manipular um navegador da web ou consultar um banco de dados por meio de prompts de linguagem natural estão entre os cenários mais fáceis para a IA lidar.

No entanto, quando os estudiosos de Stanford, liderados pela editora-chefe Sha Sajadieh, investigaram tipos mais profundos de trabalho, o quadro se tornou muito menos encorajador. A pesquisa descobriu que os modelos lidam bem com pesquisas simples, mas lutam profundamente quando solicitados a realizar análises complexas e multifacetadas. Isso serve como um lembrete crítico: mesmo com tarefas bem definidas, você deve sempre verificar a saída do bot, pois as pontuações médias de benchmark ainda ficam aquém da capacidade humana, e o desempenho no mundo real provavelmente será ainda menos confiável.